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内 容 提要 


TensorFlow 是 合 歌 公司 开发 的 深度 学 习 框 架 ， 也 是 目前 深度 学 习 

的 主流 框 染 之 一 。 本 书 从 深度 学 习 的 基础 讲 起 ， 深 入 TensorFlow 框 架 
原理 、 模 型 构建 、 源 代码 分 析 和 网 络 实现 等 各 个 方面 。 全 书 分 为 基础 
篇 、 实 战 篇 和 提高 篇 三 部 分 。 基 础 篇 讲解 人 工 关 能 的 入 门 知 识 ， 深 度 
学 习 的 方法 ，TensorFlow 的 基础 原理 、 系 统 架 构 、 设 计 理 念 、 编 程 模 
型 、 常 用 API、 批 标准 化 、 模 型 的 存储 与 加 载 、 队 列 与 线程 ， 实 现 一 
个 目 定义 操作 ， 并 进行 TensorFlow 源 代码 解析 ， 介 绍 卷 积 神经 网 络 

(CNN) 和 循环 神经 网 络 (RNN) 的 演化 发 展 及 其 TensorFlow 实 现 、 
TensorFlow 的 高 级 框架 等 知识 ， 实 战 篇 讲解 如 何 用 TensorFlow 写 一 个 神 
经 网 络 程序 并 介绍 TensorFlow 实 现 各 种 网 络 (CNN、RNN 和 上 自 编 码 网 
络 等 ) ， 并 对 MINIST 数 据 集 进 行 训练 ， 讲 解 TensorFlow 在 人 脸 识 别 、 
目 然 语言 处 理 、 图 像 和 语 首 的 结合 、 生 成 式 对 抗 网 络 等 方面 的 应 用 ; 
提高 篇 讲解 TensorFlow 的 分 布 式 原理 、 和 架构、 模式、API， 还 会 介绍 
TensorFlow XLA ` TensorFlow Debugger、TensorFlow 和 Kubernetes 结 
合 、TensorFlowOnSpark、TensorFlow 移 动 端 应 用 ， 以 及 TensorFlow 
Serving ` TensorFlow Fold 和 TensorFlow 计 算 加 速 等 其 他 特性 。 最 后 ， 
附录 中 列 出 一 些 可 供 参 考 的 公开 数据 集 ， 并 结合 作者 的 项 目 经 验 介绍 
项 目 管理 的 一 些 建议 。 


本 书 深 入 浅 出 ， 理 论 联 系 实际 ， 实 战 案 例 新 颖 ， 基 于 最 新 的 
TensorFlow 1.1 版 本 ， 泗 盖 TensorFlow 的 新 特性 ， 非 常 适 合 对 深度 学 习 
和 TensorFlow 感 兴趣 的 读者 阅读 。 
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今天 深度 学 习 已 经 渗透 到 互联 网 技术 和 产品 的 方方面面 ， 它 从 学 
术 界 的 一 个 研究 课题 变 成 了 被 工业 界 最 广泛 应 用 的 关键 技术 。 对 于 每 
一 个 程序 员 ， 我 认为 都 应 该 或 多 或 少 了 解 和 掌握 深度 学 习 。 对 于 初学 
者 来 说 ， 从 TensorFlow 入 手 是 很 好 的 起 点 。TensorFlow 有 谷歌 的 强大 文 
持 ， 并 且 有 广泛 的 社区 。 


本 书 的 作者 李 嘉 吏 曾 是 百度 的 一 名 优秀 工程 师 ， 一 位 非常 勤奋 的 
女生 。 她 在 工作 之 余 致 力 于 人 工 状 能 的 研究 ， 对 深度 学 习 框 染 的 架 
构 、 应 用 及 编程 进行 深入 钻研 ， 并 利用 深度 学 习 做 图 像 处 理 、 情 感 分 
析 、 文 本 挖 据 等 项 目 。 更 为 难得 的 是 ， 她 在 繁忙 的 工作 之 外 积极 创建 
TensorFlow 及 深度 学 习 交 流 社 区 ， 同 时 也 活跃 于 国内 各 大 技术 人 社区。 
这 本 书 更 旦 她 投入 了 很 多 个 不 眠 之 夜 编写 而 成 。 


鉴于 这 样 的 背景 ， 我 认为 这 本 书 非常 适合 希望 入 门 深度 学 习 的 程 
序 员 。 他 们 可 以 将 本 书 作为 一 本 入 门 和 实践 的 书籍 阅读 。 读 者 可 以 从 
本 书 中 了 解 基本 的 深度 学 习 原 理 、 典 型 的 模型 、 大 量 的 TensorFlow 源 
代码 以 及 成 功 的 应 用 范例 。 从 本 书 出 发 ， 读 者 可 以 循序 渐进 ， 逐 步 深 
入 ， 在 工作 实践 中 加 以 运用 ， 领 略 深度 学 习 的 美妙 。 
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地 平 线 机 妖 人 创始 人 ， 前 百度 深度 学 习 实 和 验 室 主 任 
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2017 年 2 月 ，TensorFlow 的 首届 开发 者 峰会 (2017 TensorFlow Dev 
Summit) 在 美国 的 加 利 福 尼 亚 州 举行 。 在 会 上 ， 人 谷歌 公 司 宣布 正式 发 
布 TensorFlow 1.0 版 本 。 本 书 就 是 基于 最 新 的 1.1.0 版 本 来 介绍 
TensorFlow 的 技术 解析 和 实战 。 


人 工 智 能 大 潮 来 了 。2016 年 ，AlphaGo 击 败 围棋 大 师 李 世 石 后 ， 
人 工 知 能 的 应 用 仿佛 一 夜 之 间 志 地 开花 。 在 科技 潮流 的 大 环境 中 ， 现 
在 硅谷 的 用 人 单位 越 来 越 倾向 于 雇用 既 懂 理 论 (思考 者 ) 又 懂 编 程 
(执行 者 ) 的 工程 师 。 思 考 者 的 日 常 工作 是 阅读 文献 以 求 产 生 思 路 ， 
而 执行 者 则 是 编写 代码 来 实现 应 用 。 但 是 要 成 为 一 名 真正 的 工程 师 ， 
学 习 机 天 学 习 是 将 思考 者 和 执行 者 相 结合 的 最 快 途 径 。 


众所周知 ， 人 工 智 能 是 高 级 计算 智能 最 宽泛 的 概念 ， 机 需 学 习 是 
研究 人 工 智 能 的 一 个 工具 ， 深 度 学 习 是 机 器 学 习 的 一 个 子 集 ， 有 是 目前 
研究 领域 卓有成效 的 学 习 方 法 。 深 度 学 习 的 框 名 有 很 多 ， 而 
TensorFlow 将 神经 网 络 、 算 法 这 些 平 时 停留 在 理论 层面 的 知识 ， 组 织 
成 一 个 平台 框架 ， 集 合 了 神经 网 络 的 各 个 算法 函数 组 成 一 个 工具 箱 ， 
让 广大 工程 师 可 以 专心 建造 目 己 的 目标 领域 的 “轮子 ”， 而 且 
TensorFlow 是 基于 Python 语 言 的 ， 极 易 上 手 ， 这 些 优势 迅速 吸引 了 全 
世界 的 工程 师 。 


我 兽 经 也 是 一 名 前 后 端 开发 工程 师 ， 更 专注 于 后 端 工程 方向 ， 而 
潜心 研究 深度 学 习 和 TensorFlow 后 ， 我 被 TensorFlow 深 深 地 迷 住 了 。 我 
发 现 它 对 各 行 各 业 将 会 有 很 深远 的 影响 ， 并 且 会 大 大 地 解放 劳动 力 。 


与 传统 工程 师 的 主要 工作 一 一 实现 产品 需求 或 者 设计 高 可 用 性 染 
构 不 同 ， 深 度 学 习 让 人 总 结 和 抽象 人 类 十 怎样 理解 和 看 竺 问题 的 ， 并 
把 这 种 方式 教 给 机 器 。 例 如 ， 在 AlphaGo 的 研究 中 ， 人 们 需要 先 抽象 
出 人 类 思考 围棋 的 方式 ， 然 后 将 这 种 方式 抽象 成 算法 ， 并 且 配 合 人 类 
大 脑 构造 中 神经 网 络 的 传输 来 实现 这 些 算 法 。 这 时 ， 工 程 师 不 会 再 写 
实现 业务 需求 的 逻辑 代码 ， 而 是 深度 学 习 中 将 神经 网 络 的 “墨盒 "和 模 
型 效 采 非常 好 却 缺 乏 “ 可 解释 性 ”的 特性 相 结 合 ， 在 次 次 实验 中 尽量 找 
出 规律 。 记 得 类 国 前 总 统 肯 尼 迪 在 宣布 登 月 计划 时 曾 说 : “我 们 选择 去 
月 球 ， 不 是 因为 它 简单 ， 而 是 因为 它 困难 。?” 今 天 ， 我 相信 ， 所 有 和 致力 
于 人 工 智能 方 同 的 工程 师 之 所 以 目 桶 地 去 研究 ， 也 不 是 因为 它 简单 ， 
而 是 因为 它 困 难 。 我 们 研究 它 ， 是 因为 立足 于 现在 这 个 点 往 前 看 ， 我 
们 看 不 到 已 经 建 好 的 高 楼 大 厦 ， 看 到 的 是 一 片 等 待 我 们 去 发 所 的 空旷 
的 大 地 ， 而 这 个 发 据 过 程 需 要 的 是 十 足 的 远见 、 决 心 、 勇 气 和 信心 。 


我 在 学 习 的 过 程 中 ， 由 于 深度 学 习 的 资料 英文 的 大 多 ， 在 理解 上 
走 了 不 少 弯路 。 我 把 学 到 的 知识 和 原理 用 心 整 理 并 用 文字 表述 出 来 ， 
写成 这 本 书 ， 布 望 能 帮助 没有 接触 过 深度 学 习 的 广大 程序 员 迅 速 上 
手 ， 而 不 再 被 英文 阅读 理解 挡 在 门 外 。 说 实话 ，TensorFlow 的 文档 以 
及 API 接 口 是 比较 抽象 的 ， 再 加 上 有 一 些 从 工程 方向 转 入 深度 学 习 的 
人 以 前 没有 过 深度 学 习 的 经 验 ， 所 以 如 有 果 带 着 工程 类 程序 研发 的 思维 
去 学 习 ， 甚 至 是 实现 业务 逻辑 需求 的 思维 去 学 习 ， 效 采 会 很 差 。 我 布 


望 这 本 书 能 为 读者 呈现 一 个 通俗 易 履 、 形 象 生动 的 TensorFlow， 使 读 
者 迅速 走 入 深度 学 习 的 世界 。 


在 本 书 的 写作 过 程 中 ， 为 了 能 充分 挤 出 时 间 ， 深 夜 当 我 困倦 时 ， 
我 常常 让 目 己 以 最 不 舒服 的 方式 入 睡 ， 希望 能 尽量 少 睡 ， 以 此 增加 仔 
细 钻 研 的 时 间 。 有 时 我 还 会 打开 电视 ， 将 音量 设置 为 静音 ， 感 受 房 间 
中 电视 背景 光 内 烁 的 动感 ， 以 此 提醒 目 己 时 间 的 流动 。 刚 开始 我 会 坐 
在 工作 人 台 前 写作 ， 累 了 又 会 抱 痢 笔记 本 坐 在 床上 继续 写作 ， 有 时 会 写 
着 写 着 不 知 不 觉 地 睡 着 ， 凌 晨 三 四 点 钟 又 醒 来 ， 感 受 黑夜 里 的 那 片 安 
宁 ， 心 情 顿时 平静 ， 再 次 投入 到 钻研 中 。 每 每 有 灵感 ， 都 非常 沿 动 ; 
BERRA his, Slot, (REDE, ab 
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面向 的 读者 


我 素来 不 爱 探 究 数 学 公式 的 推导 原理 ， 对 符号 也 很 茫然 ， 只 是 在 
必须 要 用 时 才 对 这 些 公 式 进行 详细 的 推导 ， 但 是 我 却 对 这 些 原 理 在 应 
用 层面 如 何 使 用 出 奇 地 感 兴趣 。 本 书 的 目标 就 是 带 读者 进入 造 “ 应 用 轮 
子 ” 的 大 门 。 我 会 以 最 少 的 数学 公式 讲 清楚 如 何 用 TensorFlow 实 现 
CNN、RNN， 如 何在 实战 中 使 用 TensorFlow 进 行 图 片 分 类 、 人 脸 识 别 
和 目 然 语言 处 理 等 ， 以 及 如 何 将 想 训练 的 数据 、 想 实现 的 应 用 亲手 做 
出 来 。 


同时 ，Python 语 言 是 一 门 相当 高 级 的 语言 ， 有 “可 执行 的 伪 代 
码 ” 的 美誉 ， 可 以 用 极 少 的 代码 行 去 完成 一 个 复杂 的 功能 ， 同 时 Python 
还 有 极为 丰富 的 第 三 方 库 ， 让 全 世界 很 多 工程 师 的 开发 工作 变 得 异 前 


人 简单。TensorFlow 是 用 Python 语 言 实现 的 框架 ， 对 很 多 学 生来 说 非常 
容易 上 手 ， 当 然 ， 如 果 是 有 开发 经 验 的 工程 师 ， 束 更 容易 学 会 。 如 有 果 
说 设计 神经 网 络 模型 像 是 雷 一 栋 大 槛 ， 那 么 TensorFlow 强 大 的 API 用 起 

会 让 人 司 觉 束 像 搭 积木 一 样 容易 。 因 此 ， 代 点 儿 Python， 即 便 不 起 
么 慌 数 学 和 算法 原理 也 没关系 ， 尺 管 跟着 我 一 起 学 便 是 。 


在 翻译 学 上 有 一 个 概念 叫 作 “平行 语料库 ?， 这 个 概念 来 目 制作 于 
公元 前 196 年 的 古 埃 及 罗 塞 塔 石碑 ,石碑 上 用 希腊 文字 、 古 埃及 文字 和 
当时 的 通俗 体 文字 刻 了 同样 的 内 容 。 在 本 书 进 行 某 个 概念 的 讲解 时 ， 
虽然 是 用 Python 代码 作 示 范 ， 但 TensorFlow 前 端 开 发 同时 也 文 持 多 种 
上 层 语言 ， 本 书 讲解 过 程 中 也 会 兼顾 到 用 C++、Java、Go 语 言 做 开发 
的 读者 。 


我 希望 ， 本 书 成 为 不 同 领域 的 读者 进入 人 工 吞 能 领域 的 “ 扑 脚 
石 ”， 也 希望 所 有 的 读者 在 人 生路 上 能 利用 TensorFlow 这 个 工具 大 放 异 


我 有 很 重 的 强迫 证 ， 因 此 ， 在 编写 本 书 的 过 程 中 ， 阅 读 了 国内 外 
很 多 与 TensorFlow 相 关 的 资料 ， 对 本 书 的 目录 结构 和 框架 经 过 很 多 次 
反复 琢磨 和 调整 ， 在 写 完 之 后 ， 我 义 从 头 到 尾 地 读 过 好 几 毅 ， 并 且 和 
了 解 TensorFlow 不 同方 面 的 人 反复 交流 ， 根 据 建议 又 反复 修改 。 这 一 
切 束 是 希望 它 能 通俗 易 懂 ， 把 读者 快速 领 入 深度 学 习 的 大 | 门 。 


这 局 门 的 背后 是 异彩 纷呈 的 ， 映 怀 这 1] 技艺 的 人 是 应 该 非常 目 坚 
的 ， 但 这 怖 门 的 背后 也 是 非常 圣 藻 的 ， 有 了 时 数据 需要 目 己 去 想 办 法 解 
决 ， 还 需要 每 天 看 论文 ， 知晓 最 新 科 人 研 成 末 ， 给 目 己 以 局 发 ， 肥 复 地 
做 实验 ， 人 研究 算法 和 模型 ， 寻 求 提升 和 解决 方法 ， 经 肖 会 遇 到 在 很 长 


一 段 时 间 没 有 思路 的 情况 。 但 是 ， 只 要 做 的 东西 是 开创 的 ， 令 人 称 觉 
的 ， 就 会 开心 地 至 受 这 个 过 程 。 
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最 新 的 研究 成 果 。 
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TensorFlow. I hope you enjoyed the experience in learning about 
TensorFlow and how to accomplish various tasks. I'm glad that you’re 


33 o 


making your book available for the Chinese speaking community. 


第 一 篇 ”基础 篇 


考 名 历史 学 家 斯 塔 夫 里 阿 诺 斯 在 《全 球 通史 》 中 ， 曾 以 15 世 纪 的 
航海 在 “物理 上 ”连通 “各 大 洲 ” 作 为 标志 将 人 类 历史 划分 为 两 个 阶段 。 
在 我 正在 写作 的 《互联 网 通史 》 中 ， 我 把 互联 网 这 个 “信息 上 ”连通 “人 
类 个 体 ” 的 物件 作为 划分 人 类 历史 的 标志 。 而 随 厦 人 工 智能 最 近 的 崛 
起 ， 我 们 又 该 思考 重新 划分 了 ， 因 为 人 工 智 能 将 会 在 “信息 上 ?连通 “各 
个 物体 *。 到 那 时 各 个 物体 都 有 “智能 "， 如 智能 汽车 、 乔 能 电视 、 扫 地 
机 器 人 、 知 能 音 啊 等 智能 家 大 ， 想 象 极度 的 智能 下 ， 屋 子 里 的 电器 和 
家 居 都 可 能 和 我 们 有 简单 的 交互 。 


深度 学 习 领 域 之 所 以 异军突起 ， 是 因为 传统 的 研发 思维 ， 如 以 
构 、 组 件 化 、 大 规模 并 发 、 存 储 与 计算 等 ， 已 经 是 技术 红海 了 ， 而 每 
位 工程 师 都 应 该 学 习 机 器 学 习 ， 是 因为 它 带 给 工程 师 全 新 的 开发 思 
维 ， 工 程 师 可 以 用 目 己 的 代码 让 机 器 更 加 “聪明 ”。 


BIE ”人工 智能 概述 


有 人 说 ， 人 工 智能 在 世界 范围 的 流行 ， 是 因为 那 盘 围棋 。2016 年 3 月 ， 谷 
次 公司 的 AlphaGo 回 韩国 棋院 围棋 九段 大 师 李 世 石 发 起 挑战 ， 而 这 棋局 走 法 的 
能 性 有 361! 种 ， 最 终 AlphaGo 战 胜 了 这 场 “ 棋 局 数 比 可 见 宇 宙 中 的 原子 数 还 
多 ”的 智力 游戏 。2015 年 11 月 9 日 (在 距 这 场 比 赛 前 4 个 月 ) ， 合 歌 公司 开源 了 
它 的 第 二 代 深 度 学 习 系 统 TensorFlow， 也 就 是 AlphaGo 的 基础 程序 。 
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11 什么 是 人 工 智 能 


什么 是 人 工 智能 (artificial intelligence, AI) ? 要 了 解 这 个 问题 ， 我 们 先 
来 看 看 人 工 智 能 的 几 个 应 用 。 


1. 微软 小 冰 


相信 很 多 朋友 手机 里 都 有 关注 “微软 小 冰 ” 的 公众 号 ， 这 是 微软 (亚洲 ) 互 
联网 工程 院 的 一 款 人 工 乔 能 伴侣 虚拟 机 器 人 ， 跟 它 聊天 时 你 会 发 现 ， 小 水 有 了 时 
回答 得 非常 切中 你 的 心意 ， 而 有 时 逻辑 上 表达 却 有 点 儿 对 不 上 上 下 文 ， 所 以 你 
觉得 它 时 而 回答 得 不 错 像 人 ， 时 而 又 一 眼看 穿 它 是 个 机 器 人 。 这 种 能 否 判断 对 
方 究竟 是 人 还 是 机 器 人 的 思维 实验 ， 叫 作 “ 图 灵 测 试 ”。 


图 灵 测 试 是 计算 机 科学 之 父 英国 人 艾 伦 :图 灵 提 出 的 ， 这 是 一 种 测试 机 妖 
苹 否 具备 人 类 智能 的 方法 。 图 灵 设 计 了 一 种 “模仿 游戏 ”*， 远 处 的 人 在 一 段 规 定 
的 时 间 内 ， 根 据 两 个 实体 一 一 电脑 和 人 类 对 他 提出 的 各 种 问题 来 判断 对 方 是 人 
类 还 是 电脑 。 趾 具体 过 程 如 图 1-1 所 示 。C 向 A 和 B 提 出 问题 ， 由 C 来 判断 对 方 
是 人 类 还 是 电脑 。 通 过 一 系列 这 样 的 测试 ， 从 电脑 被 误 判 断 为 人 的 概率 就 可 以 
测 出 电脑 的 智能 程度 ， 电 脑 越 被 误 判 成 人 ， 说 明智 能 程度 就 越 高 。 
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图 1-1 


这 种 情感 对 话 能 力 就 是 人 工 智 能 的 一 个 方向 。 而 现在 微软 小 冰 更 是 可 以 通 
过 文本 、 图 像 、 视 频 和 语音 与 人 类 展开 交流 ， 逐 渐 具 备 能 看 、 能 听 和 能 说 的 各 
种 人 工 智 能 感官 ， 并 且 能 够 和 人 类 进行 双向 同步 交互 。 


2. 人 脸 识别 


现在 许多 电脑 开机 密码 、 文 付 宝 的 刷 脸 文 付 、 客 流 的 曾 机 通行 都 有 采用 人 
脸 识 别 技术 。 目 前 市 面 上 也 有 许多 人 脸 识 别 考勤 机 。 很 多 公司 已 经 采用 了 人 脸 
曾 机 打卡 签到 技术 ， 当 有 人 刷 脸 打卡 签到 时 ， 识 别 出 这 个 人 的 面部 特征 ， 考 勤 
机 会 将 其 与 公司 的 员工 信息 进行 比 对 ， 完 成 身份 识别 ， 确 认 后 ， 便 可 开 曾 放 
1° 


更 进一步 讲 ， 人 脸 识别 中 还 可 以 识别 出 人 物 的 年 龄 、 性 别 、 有 是 否 佩戴 眼 
镜 、 是 否 有 笑容 、 情 绪 欢 乐 或 悲伤 ， 以 及 眼睛 、 时 子 、 嘴 等 关键 部 位 ， 这 就 是 
人 脸 关 键 点 检测 。 图 1-2 束 是 人 脸 关 键 点 检测 的 一 个 示例 。 


图 1-2 


国内 有 一 些 公司 在 人 脸 识 别 上 已 经 达到 了 先进 水 平 ， 如 云 从 科技 、 旷 视 科 
技 、 商 汤 科 技 等 。 旷 视 科技 的 Face++ 有 目前 世界 一 流 的 人 脸 追 踪 、 识 别 、 分 析 
等 服务 应 用 ， 面 癌 开 发 者 的 云 平台 及 API、SDK， 已 经 可 以 直接 调用 。 


以 上 是 人 工 智 能 应 用 的 两 个 例子 。 百 度 百 科 上 给 出 的 人 工 智 能 的 解释 
是 :“ 它 是 研究 、 开 发 用 于 模拟 、 延 伸 和 扩展 人 的 智能 的 理论 、 方 法 、 技 术 及 
应用 系统 的 一 门 新 的 技术 科学 。 人 工 智 能 是 计算 机 科学 的 一 个 分 文 ， 它 企图 了 
解 智能 的 实质 ， 并 生产 出 一 种 痢 的 能 以 人 类 智能 相似 的 方式 做 出 反应 的 智能 机 
引 ， 该 领域 的 研究 包括 机 器 人 、 语 言 识别 、 图 像 识 别 、 上 自然 语言 处 理 和 专家 系 


简 而 言 之 ， 人 工 智 能 就 是 研究 用 计算 机 来 实现 人 类 的 智能 ， 例 如 ， 去 模仿 
人 类 的 知觉 、 推 理 、 学 习 能 力 等 ， 从 而 让 计算 机 人 能够 像 人 一 样 思考 和 行动 ， 有 
图 像 识别 (机 器 识别 出 猫 猫 狗 狗 ) 、 人 机 对 话 (机 器 感知 到 人 类 的 语义 和 情 
感 ， 并 给 出 反馈 ) 、 围 棋 的 人 机 对 宣 (AlphaGo、Master 等 让 机 器 自己 思考 去 
PHL) 等 。 


国际 上 的 谷歌 、 苹 采 、 亚 马 逊 、 微 软 等 已 大 公司 都 在 “两 条 腿 走 路 ”， 一 方 
面 在 做 研发 项 目 ， 如 “谷歌 大 脑 ” (Google Brain) ， 另 一 方面 同时 发 力 智能 家 
居 ， 如 “Google Home 知 能 音箱 ”， 和 希望 把 设备 当成 人 来 交流 。 国 内 的 阿里 、 腾 
讯 、 百 度 、 搜 狗 、 地 平 线 等 公司 以 及 很 多 不 同 领域 的 创业 公司 也 都 在 积累 的 大 
量 数 据 上 ， 开 始 和 尝试 训 练 出 高 效 的 模型 ， 不 断 优化 业务 指数 。 


那么 ， 机 希 是 如 何 实现 人 类 的 智力 的 呢 ? 其实， 机 器 主 要 是 通过 大 量 的 训 
练 数据 进行 训练 ， 程 序 不 断 地 进行 自我 学 习 和 修正 来 训练 出 一 个 模型 ， 而 模型 
的 本 质 就 是 一 堆 参 数 ， 用 上 千 万 、 上 亿 个 参数 来 描述 业务 的 特点 ， 如 “人 
脸 ”“ 房 屋 地 段 价格 ”用户 画像 ”的 特点 ， 从 而 接近 人 类 智力 。 这 个 过 程 一 般 采 
用 的 是 机 器 学 习 以 及 机 器 学 习 的 子 集 一 一 深度 学 习 (deep learning) ， 也 就 是 


结合 深度 神经 网 络 的 方法 来 训练 。 所 以 说 ， 深 度 学 习 方 法 是 能 够 迅速 实现 人 工 
智能 很 有 效 的 工具 


AlphaGo 的 原理 


20 年 前 ，IBM 的 “深蓝 ”计算 机 打败 人 类 象棋 高 手 的 情景 仿佛 还 历历 在 目 。20 年 
后 ， 人 工 智能 挑战 最 难 的 棋 类 围棋 棋局 也 成 功 了 。 那 么 AlphaGo 是 如 何 下 棋 的 
We? 我 们 知道 ， 传 统计 算 机 的 下 棋 方 法 ， 一 般 采 取 仙 楚 算 法 ， 用 Alpha-Beta 修 剪 法 配 
合 Min-Max 算 法 。 而 AlphaGo 采 用 了 蒙特 卡 洛 树 搜索 法 (Monte Carlo tree search, 
MCTS) 和 深度 卷 积 神经 网 络 (deep convolutional neural network，DCNN) 相 结 合 。 
模型 中 涉及 的 主要 网 络 及 作用 如 下 。 


o 估 值 网 络 (value network， 也 称 盘 面 评 佑 函数) : 计算 出 盘面 的 分 数 。 


o 策略 网 络 (policy network) : 计算 对 于 下 每 一 个 棋子 的 概率 和 胜率 。 它 评估 
对 手 和 自己 可 能 下 的 位 置 ， 对 可 能 的 位 置 进行 评估 和 搜寻 。 


训练 模型 的 主要 过 程 分 为 以 下 4 步 。 


(1) 采用 分 类 的 方法 得 到 直接 策略 。 


(2) 直接 策略 对 历史 棋局 资料 库 进行 神经 网 络 学 习 ， 得 到 习 得 策略 。 


G) 采用 强化 学 习 的 方法 进行 自我 对 局 来 得 到 改良 策略 。 


(4) 用 回归 的 方法 整体 统计 后 得 到 估 值 网 络 。 


这 里 的 神经 网 络 部 分 都 采用 的 是 深度 卷 积 神经 网 络 ， 在 自我 对 局 的 部 分 采用 的 是 
蒙特 卡 洛 树 状 搜寻 法 (MCTS) 。 


更 详细 的 论文 见 谷歌 公司 发 表 在 《自然 》 (Nature ) 上 的 论文 《Mastering the 


game of Go with deep neural networks and tree search) ° 


1.2 什么 是 深度 学 习 


深度 学 习 ， 顾 名 思 义 ， 需 要 从 “深度 ”和 “学 习 ?” 两 方面 来 谈 。 
1. RE 


深度 学 习 的 前 身 是 人 工 神 经 网 络 (artificial neural network, ANN) , GAY 


基本 特 . 


点 就 是 试图 模仿 人 脑 的 神经 元 之 间 传递 和 处 理 信息 的 模式 。 神 经 网 络 这 


个 词 本 吴 可 以 指 生物 神经 网 络 和 人 工 神 经 网 络 。 在 机 器 学 习 中 ， 我 们 说 的 神经 
网 络 一 般 就 是 指 人 工 神经 网 络 。 


图 1-3 给 出 的 是 一 个 最 基本 的 人 工 神经 网 络 的 3 层 模 型 。 


隐藏 层 
输入 层 


输出 层 


图 1-3 


人 工 神 经 网 络 由 各 个 层 组 成 ， 输 入 层 (input layer) 输入 训练 数据 ， 在 输 
出 层 (output layer) 输出 计算 结果 ， 中 间 有 1 个 或 多 个 隐藏 层 (hidden 
layer) ， 使 输入 数据 向 前 传播 到 输出 层 。* 深 度 ” 一 词 没 有 具体 的 特 指 ， 一 般 就 
是 要 求 隐 藏 层 很 多 (一 般 指 5 层 、10 层 、 几 百 层 甚至 儿 千 层 ) 。 


人 工 神 经 网 络 的 构想 源 目 对 人 类 大 脑 的 理解 一 一 神经 元 的 彼此 联系 。 二 者 
也 有 不 同 之 处 ， 人 类 大 脑 的 神经 元 是 按照 特定 的 物理 距离 连接 的 ， 而 人 工 神经 
网 络 有 独立 的 层 和 连接 ， 还 有 数据 传播 方向 。 


例如 ， 我 们 拿 一 张 图 片 ， 对 它 做 一 些 预 处 理 ， 如 图 像 居 中 、 灰 度 调 整 、 梯 
度 锐 化 、 去 除 噪声 、 倾 斜 度 调整 等 ， 就 可 以 输入 到 神经 网 络 的 第 一 层 。 然 后 ， 
第 一 层 会 自己 提取 这 个 图 像 的 特征 ， 把 有 用 的 特征 向 下 传递 ， 直 到 最 后 一 层 ， 
然后 输出 结果 。 这 就 是 一 次 前 疝 传 播 (forword propagation) ° 


最 后 一 层 的 输出 要 给 出 一 个 结论 ， 例 如 ， 在 分 类 问题 中 ， 要 告诉 我 们 a 到底 
输入 的 图 像 是 哪个 类 别 ， 一 般 它 会 给 出 一 个 “概率 向 量 ”。 如 图 1-4 所 示 ， 列 出 
了 这 只 猫 所 属 品种 的 前 5 个 概率 值 。 


图 1-4 


人 工 神经 网 络 的 每 一 层 由 大 量 的 节点 (神经 元 ) 组 成 ， 层 与 层 之 间 有 大 量 
连接 ， 但 是 层 内 部 的 神经 元 一 般 相 互 独立 。 深度 学 习 的 目的 就 是 要 利用 已 知 的 
数据 学 习 一 套 模 型 ， 使 系统 在 遇见 未 知 的 数据 时 也 能 够 做 出 预测 。 这 个 过 程 需 
要 神经 元 具备 以 下 两 个 特性 。 


(1) 激活 函数 (activation function) : 这 个 函数 一 般 是 非 线 性 函数 ， 也 
就 是 每 个 神经 元 通过 这 个 函数 将 原 有 的 来 自 其 他 神经 元 的 输入 做 一 个 非 线性 变 
化 ， 输 出 给 下 一 层 神 经 元 。 激 活 函 数 实现 的 非 线性 能 力 是 前 向 传播 (forword 
propagation) 很 重要 的 一 部 分 。 


(2) RÆK (cost function) : 用 来 定量 评估 在 特定 输入 值 下 ， 计 算出 
来 的 输出 结果 距离 这 个 输入 值 的 真实 值 有 多 远 ， 然 后 不 断 调 整 每 一 层 的 权重 参 
数 ， 使 最 后 的 损失 值 最 小 。 这 就 是 完成 了 一 次 反问 传播 (backword 
propagation) 。 损 失 值 越 小 ， 结 果 就 越 可靠 。 


神经 网 络 算法 的 核心 束 是 计算 、 连 接 、 评 估 、 纠 错 和 训练 ， 而 深度 学 习 的 
深度 就 在 于 通过 不 断 增加 中 间 隐 藏 层 数 和 神经 元 数量 ， 让 神经 网 络 变 得 又 深 又 
宽 ， 让 系统 运行 大 量 数据 ， 训 练 它 。 


2, 4] 


什么 是 “学 习 ”” 有 一 些 成 语 可 以 概括 : 举一反三 、 闻 一 知 十 、 触 类 旁 通 、 

问 牛 知 马 、 融 会 贯通 等 。 计 算 机 的 学 习 和 人 类 的 学 习 类 似 ， 我 们 乎 时 大 量 做 题 

(训练 数据 ，， 不 断 地 经 过 阶段 性 考试 (验证 数据 ) 的 检验 ， 用 这 些 知 识 和 解 
题 方法 (模型 最终 走向 最 终 (测试 数据 ， 的 考场 。 


最 简单 也 最 普遍 的 一 类 机 器 学 习 算 法 就 是 分 类 (classification) 。 对 于 分 
类 ， 输 入 的 训练 数据 有 特征 (feature) ， 有 标记 (label) ， 在 学 习 中 就 是 找 
出 特征 和 标记 间 的 上 映射 关系 (mapping) ， 通 过 标记 来 不 断 纠正 学 习 中 的 偏 
差 ， 使 学 习 的 预测 率 不 断 提高 。 这 种 训练 数据 都 有 标记 的 学 习 ， 称 为 有 监督 学 


习 (supervised learning) 。 


无 监督 学 习 (unsupervised learning) 则 看 起 来 非常 困难 。 无 监督 学 习 的 日 
的 是 让 计算 机 目 己 去 学 习 怎 样 做 一 些 事情 。 因 此 ， 所 有 数据 只 有 特征 而 没有 标 
Ww e 


无 监督 学 习 一 般 有 两 种 思路 : 一 是 在 训练 时 不 为 其 指定 明确 的 分 类 ， 但 是 
这 些 数 据 会 呈现 出 聚 群 的 结构 ， 彼 此 相似 的 类 型 会 聚集 在 一 起 。 计 算 机 通过 把 
这 些 没 有 标记 的 数据 分 成 一 个 个 组 合 ， 就 是 聚 类 (clustering) ; 二 是 在 成 功 
时 采用 某 种 形式 的 激励 制度 ， 即 强化 学 习 (reinforcement learning, RL) ° X} 
强化 学 习 来 说 ， 它 虽然 没有 标记 ， 但 有 一 个 延迟 奖赏 与 训练 相关 ， 通 过 学 习 过 


程 中 的 激励 函数 获得 茶 种 从 状态 到 行动 的 映射 。 强 化 学 习 一 般 用 在 游戏 、 下 棋 
(如 前 面 提 到 的 AlphaGo) 等 需要 连续 决策 的 领域 。 (6.7.1 市 会 讲解 强化 学 习 
的 应 用 。) 


有 人 可 能 会 想 ， 难 道 束 只 有 有 监督 学 习 和 无 监督 学 习 这 两 种 非 黑 即日 的 关 
ANG? 二 者 的 中 间 地 和 带 就 是 半 监 督学 习 (semi-supervised learning) 。 对 于 半 
监督 学 习 ， 其 训练 数据 一 部 分 有 标记 ， 男 一 部 分 没有 标记 ， 而 没 标记 数据 的 数 
量 常常 极 大 于 有 标记 数据 的 数量 (这 也 符合 现实 ， 大 部 分 数据 没有 标记 ， 标 记 
数据 的 成 本 很 大 ) 。 它 的 基本 规律 是 : 数据 的 分 布 必然 不 是 完全 随机 的 ， 通 过 
结合 有 标记 数据 的 局 部 特征 ， 以 及 大 量 没 标记 数据 的 整体 分 布 ， 可 以 得 到 比较 
好 的 分 类 结果 。 


因此 , “学习 ?家 族 的 整体 构造 如 图 1-5 所 示 BI o 
有 监督 学 习 〈 分 类 ， 回 归 ) 
半 监 督学 习 (分 类 ， 回 归 ) 


半 监 督 聚 类 (有 标记 数据 的 标记 不 是 确定 的 ， 类 似 于 : 肯定 不 是 xxx， 很 可 能 是 yyy ) 


无 监督 学 习 《“ 聚 类 ) 


图 1-5 


关于 有 监督 学 习 和 无 监督 学 习 在 实战 中 的 应 用 ， 会 在 本 书 “ 实 战 篇 "中介 
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13 ”深度 学 习 的 入 门 方 法 


要 想 入 门 深度 学 习 ， 需 要 两 个 工具 ， 即 算法 知识 和 大 量 的 数据 ， 外 加 一 台 
计算 机 ， 如 有 果 有 GPU 束 更 好 了 ， 但 是 因为 许多 入 1] 初学 者 的 条 件 有 限 ， 没 有 
GPU 也 可 以 ， 本 书 的 许多 讲解 都 是 基于 Mac 笔 记 本 完成 的 。 


我 把 深度 学 习 的 入 门 过 程 整理 成 图 1-6 所 示 的 7 个 步骤 。 


4 研读 论文 、 公 众 号 、 博 客 


LeNet, GoogleNet, AlexNet, LSTM, GAN 


5 动手 训练 
进行 演示 案例 、 上 自己 实现 演示 案例 


” 遇 到 问题 
重复 4 一 6 步 


6 ”深入 工作 相关 领域 


计算 机 视觉 、 自 然 语 言 处 理 


图 1-6 


下 面 束 来 详细 介绍 一 下 这 7 个 步 又 。 


1. 学 习 或 者 回忆 一 些 数学 知识 


因为 计算 机 能 做 的 就 只 是 计算 ， 所 以 人 工 养 能 更 多 地 来 说 还 是 数学 问题 A 
© 我 们 的 目标 是 训练 出 一 个 模型 ， 用 这 个 模型 去 进行 一 系列 的 预测 。 于 是 ， 我 
们 将 训练 过 程 涉及 的 过 程 抽象 成 数学 函数 : 首先 ， 需 要 定义 一 个 网 络 结构 ， 相 
当 于 定义 一 种 线性 非 线性 函数 ;接着 ， 设 定 一 个 优化 目标 ， 也 就 是 定义 一 种 损 
失事 数 (loss function) ° 


而 训练 的 过 程 ， 就 是 求解 最 优 解 及 次 优 解 的 过 程 。 在 这 个 过 程 中 ， 我 们 需 
要 掌握 基本 的 概率 统计 、 高 等 数学 、 线 性 代数 等 知识 ， 如 采 学 过 就 最 好 ， 没 学 
过 也 没关系 ， 仅 仅 知 道 原理 和 过 程 即 可 ， 有 兴趣 的 读者 可 以 涉猎 一 些 推导 证 
明 。 


2. 掌握 经 典 机 器 学 习 理 论 与 基本 算法 


这 些 基本 算法 包括 支持 向 量 机 、 逻 辑 回归 、 决 策 树 、 朴 素 贝 时 斯 分 类 器 、 
随机 森林 、 素 类 算法 、 协 同 过 小、 关联 性 分 析 、 人 工 神经 网 络 和 BP 算法 、 
PCA、 过 拟 合 与 正则 化 等 。 5I 


在 本 书 “ 实 战 篇 ”的 第 8 章 到 第 13 章 的 例子 中 也 有 贯穿 这 些 算法 知识 ， 保 证 
读者 可 以 用 它 写 出 一 个 小 的 TensorFlow 程 序 。 


3. 掌握 一 种 编程 工具 (语言 ) 


Python 语言 是 一 种 解释 型 、 面 向 对 象 、 动 态 数据 类 型 的 高 级 程序 设计 语 
言 。Python 是 很 多 新 入 门 的 程序 员 的 入 门 编程 语言 ， 也 是 很 多 老 程 序 员 后 来 必 
须 掌 握 的 编程 语言 。 我 们 需要 重点 掌握 使 用 线性 代数 库 和 和 矩阵 的 操作 ， 尤 其 是 
Numpy、Pandas 第 三 方 库 ， 也 要 多 试 试 机 器 学 习 的 库 ， 如 sklearmn， 做 一 些 SVM 
及 逻辑 回归 的 练习 。 这 对 直接 上 手写 TensorFlow 程 序 大 有 神 益 。 


有 些 工业 及 学 术 领 域 的 读者 还 可 能 擅长 MATLAB 或 R， 其 实现 算法 的 思想 
和 Python 也 很 类 似 。 


同时 考虑 到 许多 读者 是 使 用 C++、Java、Go 语 言 的 ，TensorFlow 还 提供 了 
和 Python“ 平 行 语 料 库 ” 的 接口 。 虽 然 本 书 是 主要 是 基于 Python 讲解 的 ， 对 于 其 
他 语言 的 原理 和 应 用 API 也 都 非常 类 似 ， 读 者 把 基础 掌握 后 ， 只 需要 花 很 短 的 
时 间 就 能 使 用 自己 擅长 的 语言 开发 。 男 外 对 于 Java 语 言 的 同学 ， 本 书 第 18 章 会 
讲解 TensorFlowOnSpark， 第 19 章 会 讲 到 TensorFlow 的 移动 端 开 发 。 
4. 研读 经 典 论文 ， 关 注 最 新 动态 和 研究 成 果 

一 些 经 典 论 文 是 必 读 的 。 例 如 ， 要 做 手写 数字 识别 ， 者 采用 LeNet， 要 移 
阅读 一 下 LeNet 的 学 术 论 文 ; 要 做 物体 目标 检测 的 训练 ， 吞 选 定 MSCNN 框 染 ， 


可 以 先 读 MSCNN 相 关 的 论文 。 那 么 ， 论 文 从 哪里 找 呢 ? 那么 多 论文 应 该 读 哪 
篇 呢 ? 


下 面 以 GoogleNet 的 TensorFlow 实 现 为 例 。 在 GitHub I 四 上， 一般 在 开头 的 
搬 述 中 束 会 说 明 这 个 模型 所 依据 的 论文 ， 如 图 1-7 所 示 。 


顺 着 这 篇 论文 阅读 ， 可 以 大 致 了 解 这 个 网 络 的 实现 原理 ， 对 迅速 上 手 应 用 
有 很 大 的 作用 。 同 时 ， 我 在 第 6 章 也 会 对 LeNet、AlexNet、ResNet 这 几 个 常见 
的 网 络 进行 讲解 ， 帮 助 读者 举一反三 。 


Inception in TensorFlow 


ImageNet is a common academic data set in machine learning for training an image recognition system. Code in this 
directory demonstrates how to use TensorFlow to train and evaluate a type of convolutional neural network (CNN) on this 
academic data set. In particular, we demonstrate how to train the Inception v3 architecture as specified in: 


Rethinking the Inception Architecture for Computer Vision 
Christian Szegedy, Vincent Vanhoucke, Sergey loffe, Jonathon Shlens, Zbigniew Wojna 


http://arxiv.org/abs/1512.00567 


图 1-7 


很 多 做 模式 识别 的 工作 者 之 所 以 厉害 ， 古 因为 他 们 有 过 很 多 、 很 深 的 论文 
积累 ， 对 模型 的 设计 有 很 独到 的 见解 ， 而 他 们 可 能 甚至 一 行 代码 也 不 会 写 ， 而 
工程 ( 写 代 码 ) 能 力 在 工作 中 很 容易 训练 。 许 多 工程 方向 的 软件 工程 师 ， 工 作 


模式 第 常 在 实现 业务 逻辑 和 设计 架构 系统 上 ， 编 码 能 力 很 强 ， 但 却 瑞 少 论文 积 
囚 。 同 时 具有 这 两 种 能 力 的 人 ， 正 是 硅谷 一 些 企业 目前 青睐 的 人 才 。 


读者 平时 还 可 以 阅读 一 些 博客 、 笔 记 ， 以 及 微 信 公众 号 、 微 博 新 媒体 资讯 
等 ， 往 往 一 些 很 流行 的 新 训练 方法 和 模型 会 很 快 在 这 些 媒体 上 发 酵 ， 其 训练 神 
经 网 络 采 用 的 一 些 方法 可 能 有 很 大 的 局 发 性 。 


5. 自己 动手 训练 神经 网 络 


接着 ， 束 是 要 选择 一 个 开源 的 深度 学 习 框 架 。 选 择 框 架 时 主要 考虑 哪 种 框 
架 用 的 人 多 。 人 气 旺 后 ， 直 到 问题 很 容易 找到 答案 ， GitHub 上 天 于 这 个 框架 的 
项 目 和 演示 会 非常 多 ; 相关 的 论文 也 会 层出不穷 ， 在 各 个 QQ 群 和 微 信 群 的 活 
跃 度 会 高 ， 杂 志 、 公 众 号 、 微 博 关 注 的 人 也 会 很 多 ; 行业 交流 和 技术 峰会 讨论 
的 话题 也 多 ， 也 能 享受 到 国内 外 研究 信息 成 果 的 同步 。 


目前 这 个 阶段 ，TensorFlow 因 为 背 徘 谷歌 公司 这 座 靠 山 ， 再 加 上 拥有 庞大 
的 开发 者 群体 ， 而 且 采 用 了 称 为 “可 执行 的 伪 代 码 ” 的 Python 语言 ， 更 新 和 发 版 
速度 着 实 非常 快 。 目 前 TensorFlow 已 经 升级 到 1.1 版 ， 在 性 能 方面 也 有 大 幅度 提 
高 ， 而 且 新 出 现 的 Debugger、Serving、XLA 特 性 也 是 其 他 框架 所 不 及 的 。 此 
外 ， 一些 外 围 的 第 三 方 库 〈 如 Keras、TFLearn) 也 基于 它 实 现 了 很 多 成 果 ， 并 
且 Keras 还 得 到 TensorFlow 官 方 的 支持 。TensorFlow 支 持 的 上 层 语言 也 在 逐渐 增 
多 ， 对 于 不 同 工 程 背景 的 人 转 入 的 门槛 正在 降低 。 


在 GitHub [上 有 一 个 关于 各 种 框架 的 比较 ， 从 建 模 能 力 、 接 口 、 模 型 部 
署 、 性 能 、 架 构 、 生 态 系 统 、 跨 平台 等 7 个 方面 进行 比较 ，TensorFlow 也 很 占 
综合 优势 。 截 至 2017 年 1 月 ，TensorFlow 的 star 数 已 经 超过 了 其 他 所 有 框架 的 总 
和 ， 如 图 1-8 所 示 。 


因此 ， 从 目前 来 看 ， 投 身 TensorFlow 是 一 个 非常 好 的 选择 ， 掌 握 
TensorFlow 在 找 工 作 时 是 一 个 非常 大 的 加 分 项 。 


© 13,302 commits P 18 branches 21 releases 42 601 contributors sf: Apache-2.0 


接 下 来 就 是 找 一 个 深度 神经 网 络 ， 目 前 的 研究 方向 主要 集中 在 视觉 和 语音 
两 个 领域 。 初 学 者 最 好 从 计算 机 视觉 入 手 ， 因 为 它 不 像 语 音 等 领域 需要 那么 多 
的 领域 知识 ， 结 果 也 比较 直观 。 例 如 ， 用 各 种 网 络 模型 来 训练 手写 数字 
(MNIST) 及 图 像 分 类 (CIFAR) 的 数据 集 。 


6. 深入 感 兴趣 或 者 工作 相关 领域 

人 工 智能 目前 的 应 用 领域 很 多 ， 主 要 是 计算 机 视觉 和 上 自然 语言 处 理 ， 以 及 
各 种 预测 等 。 对 于 计算 机 视觉 ， 可 以 做 图 像 分 类 、 目 标 检测 、 视 频 中 的 目标 检 
测 等 ， 对 于 自然 语言 处 理 ， 可 以 做 语音 识别 、 语 音 合成 、 对 话 系统 、 机 融 翻 
译 、 文 章 摘要 、 情 感 分 析 等 ， 还 可 以 结合 图 像 、 视 频 和 语 首 ， 一 起 发 挥 价值 。 


更 可 以 深入 某 一 个 行业 领域 。 例 如 ， 深 入 医学 行业 领域 ， 做 医学 影像 的 识 
Al; 深入 淘宝 的 穿 衣 领 域 ， 做 衣服 搭配 或 衣服 款 型 的 识别 ;深入 保险 业 、 通 信 
业 的 客服 领域 ， 做 对 话机 右 人 的 智能 问答 系统 ; 深入 智能 家 居 领 域 ， 做 人 机 的 
自然 语言 交互 ， 等 等 。 

7. 在 工作 中 遇 到 问题 ， 重 复 前 六 步 

在 训练 中 ， 谁 确 率 、 坏 案例 (bad case) 、 识 别 速 度 等 都 是 可 能 遇 到 的 瓶 
有 颈 。 训 练 好 的 模型 也 不 是 一 成 不 变 的 ， 需 要 不 断 优化 ， 也 需要 结合 具体 行业 领 
域 和 业务 进行 创新 ， 这 时 候 就 要 结合 最 新 的 科研 成 果 ， 调 整 模 型 ， 更 改 模型 参 
数 ， 一 步 步 更 好 地 贴近 业务 需求 。 


1.4 什么 是 TensorFlow 


想 想 ， 在 机 器 学 习 流 行 之 前 ， 我 们 是 如 何 做 与 语音 和 图 像 相关 的 识别 的 ? 
大 多 数 是 基于 规则 的 系统 。 例 如 ， 做 自然 语言 处 理 ， 需 要 很 多 语言 学 的 知识 ; 
再 如 ，1997 年 的 IBM 的 深蓝 计算 机 对 战国 际 象棋 ， 也 需要 很 多 象棋 的 知识 。 


当 以 统计 方法 为 核心 的 机 器 学 习 方 法 成 为 主流 后 ， 我 们 需要 的 领域 知识 就 
日 对 少 了 。 重 要 的 是 做 特征 工程 (feature engineering) ， 然 后 调 一 些 参 数 ， 根 
据 一 些 领 域 的 经 验 来 不 断 提 取 特 征 ， 特 征 的 好 坏 往往 就 直接 决定 了 模型 的 好 
坏 。 这 种 方法 的 一 大 缺点 是 ， 对 文字 等 抽象 领域 ， 特 征 还 相对 容易 提取 ， 而 对 
语音 这 种 一 维 时 域 信 号 和 图 像 这 种 二 维 空域 信号 等 领域 ， 提 取 特 征 就 相对 困 
难 。 


ram 


深度 学 习 的 革命 性 在 于 ， 它 不 需要 我 们 过 多 地 提取 特征 ， 在 神经 网 络 的 每 
一 层 中 ， 计 算 机 都 可 以 目 动 学 习 出 特征 。 为 了 实现 深度 学 习 中 运用 的 神经 网 
络 ，TensorFlow 这 样 的 深度 学 习 开 源 工具 就 应 运 而 生 。 我 们 可 以 使 用 它 来 搭建 
自己 的 神经 网 络 。 这 就 有 点 儿 类 似 于 PHP 开 发 当中 的 Codelgniter 框 架 ，Java 开 
发 当中 的 SSH 三 大 框架 ，Python 开 发 当中 的 Tomado、Django 框 架 ，C++ 当 中 的 
MFC、ACE 框 染 。 框 架 的 主要 目的 就 是 提供 一 个 工具 箱 ， 使 开发 时 能 够 简化 代 
码 ， 呈 现 出 来 的 模型 尽 可 能 简洁 易 懂 。 


15 ”为 什么 要 学 TensorFlow 


首先 ，TensorFlow 的 一 大 亮点 是 支持 异 构 设备 分 布 式 计算 (heterogeneous 


distributed computing) o 


何 为 异 构 ? 信息 技术 当中 的 异 构 是 指 包含 不 同 的 成 分 ， 有 异 构 网 络 (如 
互联 网 ， 不 同 厂家 的 硬件 软件 产品 组 成 统一 网 络 且 互 相通 信 ) 、 异 构 数 据 库 
\ 多 个 数据 库 系 统 的 集合 ， 可 以 实现 数据 的 共享 和 透明 访问 @ ) 。 这 里 的 异 


构 设备 是 指使 用 CPU、GPU 等 核心 进行 有 效 地 协同 合作 ;与 只 依靠 CPU 相 
比 ， 性 能 更 高 ， 功 耗 更 低 。 


那 何 为 分 布 式 ? 分 布 式 架构 目的 在 于 帮助 我 们 调度 和 分 配 计 算 资源 (甚至 
容错 ， 如 某 个 计算 节点 宕 机 或 者 太 慢 ) ， 使 得 上 于 万 、 上 亿 ae EN 
有 效 地 利用 机 器 资 源 进行 训练 。 


图 1-9 给 出 的 是 开源 框架 TensorFlow 的 标志 


tensorflow 


http://www.tensorflow.org github-admin@tensorflow.org 


图 1-9 


TensorFlow 支 持 卷 积 神经 网 络 (convolutional neural network, CNN) 和 循 
环 神经 网 络 (recurrent neural network, RNN) ， 以 及 RNN 的 一 个 特例 长 短期 
记忆 网 络 (long short-term memory, LSTM) ， 这 些 都 是 目前 在 计算 机 视觉 
语 首 识别 、 目 然 语 言 处 理 方面 最 流行 的 深度 神经 网 络 模型 。 


下 面 参考 《The Unreasonable Effectiveness of Recurrent Neural Networks》 
[3] 这 篇 文章 梳理 了 一 个 有 效 框 架 应 该 具有 的 功能 


。 Tensor 库 是 对 CPU/GPU 透 明 的 ， 并 且 实 现 了 很 多 操作 《如 切片 、 数 组 或 矩 
阵 操 作 等 ) 。 这 里 的 透明 是 指 ， 在 不 同 设备 上 如 何 运行 ， 都 是 框架 帮 用 户 
去 实现 的 ， 用 户 只 需要 指定 在 哪个 设备 上 进行 哪 种 运算 即 可 。 

。 有 一 个 完全 独立 的 代码 库 ， 用 脚本 语言 《最 理想 的 是 Python) 来 操作 
Tensors， 并 且 实 现 所 有 深度 学 习 的 内 容 ， 包 括 前 向 传播 / 反 加 传播、 图形 
计算 等 。 


。 可 以 轻松 地 共享 预 训练 模型 (如 Caffe 的 模型 及 TensorFlow 中 的 slim 模 
块 ) 。 


没有 编译 过 程 。 深 度 学 习 是 朝 着 更 大 、 更 复杂 的 网 络 发 展 的 ， 因 此 在 复杂 


图 算法 中 花费 的 时 间 会 成 倍增 加 。 而 且 ， 进 行 编译 的 话 会 丢失 可 解释 性 和 
有 效 进行 日 志 调试 的 能 


在 我 看 来 ， 在 目前 的 深度 学 习 的 研究 领域 主要 有 以 下 3 类 人 群 。 


学 者 。 主 要 做 深度 学 习 的 理论 研究 ， 研 究 如 何 设计 一 个 “网 络 模 型 *， 如 何 


修改 参数 以 及 为 什么 这 样 修改 效果 会 好 。 平 时 的 工作 主要 是 关注 科研 前 党 
和 进行 理论 研究 、 模 型 实验 等 ， 对 新 技术 、 新 理论 很 敏感 。 


算法 改进 者 。 这 些 人 为 了 把 现 有 的 网 络 模 型 能 够 适 配 自己 的 应 用 ， 达 到 更 


好 的 效果 ， 会 对 模型 做 出 一 些 改进 ， 把 一 些 痢 算法 改进 应 用 到 现 有 模型 


HO o 


这 类 人 主要 是 做 一 些 基础 的 应 用 服务 ， 如 基础 的 语音 识别 服务 、 基 础 


的 人 脸 识 别 服 务 ， 为 其 他 上 层 应 用 方 提 供 优良 的 模型 。 


工业 研究 者 。 这 类 人 群 不 会 涉及 太 深 的 算法 ， 主 要 掌握 各 种 模型 的 网 络 结 


构 和 一 些 算 法 实现 。 他 们 更 多 地 是 阅读 优秀 论文 ， 根 据 论 文 去 复 现 成 果 ， 
然后 应 用 到 自己 所 在 的 工业 领域 。 这 个 层次 的 人 也 是 现在 深度 学 习 研究 的 
主流 人 群 。 


我 相信 本 书 的 读者 也 大 都 是 第 二 类 和 第 三 类 人 群 ， 且 以 第 三 类 人 群居 多 。 


而 在 工业 界 ，TensorFlow 将 会 比 其 他 框架 更 具 优 势 。 工 业界 的 目标 是 把 模 


型 落实 到 产品 上 ， 而 产品 的 应 用 领域 一 般 有 两 个 : 一 是 基于 服务 端的 大 数据 服 


， 让 用 户 直接 体验 到 服务 端 强大 的 计算 能 力 (谷歌 云 平台 及 谷歌 搜索 功 
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) ; 二 是 直接 面向 终端 用 户 的 移动 端 (Android 系 统 ) 以 及 一 些 智 能 产品 的 


上 Android 的 市 场 份额 和 影响 力 的 谷歌 公司 ， 在 这 两 个 方向 都 很 强大 。 


此 外 ， 合 歌 力 推 的 模型 压缩 和 8 位 低 精 度数 据 存 储 〈 详 见 第 19 章 ) 不 仅 对 训练 


系统 本 身 有 优化 作用 ， 在 某 种 程度 上 也 能 使 算法 在 移动 设备 上 的 部 署 获 益 ， 这 
些 优化 举措 将 会 使 存储 需求 和 内 存 带 宽 要 求 降低 ， 并 且 使 性 能 得 到 提升 ， 对 移 
动 设备 的 性 能 和 功 耗 非常 有 利 。 


如 果 一 个 框架 的 用 户 生 态 好 ， 用 的 人 就 会 很 多 ， 而 用 的 人 多 会 让 用 户 生态 
更 繁荣 ， 用 的 人 也 就 会 更 多 。 这 庞大 的 用 户 数 束 是 TensorFlow 框 架 的 生命 力 。 


截至 2017 年 1 月 ， 与 Caffe、Theano、Torch、MXNet 等 框架 相 比 ， 
TensorFlow 在 GitHub 上 Fork 数 和 Stat 数 都 是 最 多 的 ， 如 图 1-10 所 示 。 


tensorflow / tensorflow © Watch 4,084 会 Unstar 44,353 ¥Fork 20,693 

BVLC / caffe @Watchy 1805 和 会 Star 15,656 YFork 9,647 

torch / torch7 @ Watch> 641 K Star 6,284 YFork 1,835 

Theano / Theano © Watch 504 K Star 5,558 YFork 1,925 
图 1-10 


图 1-11 展 示 了 截至 2017 年 2 月 ， 近 些 年 几 大 机 器 学 习 框 架 的 流行 程度 。 
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图 1-11 


1.5.1 ”TensorFlow 的 特性 


在 TensorFlow 官 方 网 站 Ul 上 ， 着 重 介 绍 了 TensorFlow 的 6 大 优势 特性 。 


高 度 的 灵活 性 (deep flexibility) 。TensorFlow 是 一 个 采用 数据 流 图 (data 
flow graph) ， 用 于 数值 计算 的 开源 软件 库 。 只 要 计算 可 以 表示 为 一 个 数 
据 流 图 ， 就 可 以 使 用 TensorFlow， 只 需要 构建 图 ， 书 写 计 算 的 内 部 循环 即 
可 。 因 此 ， 它 并 不 是 一 个 严格 的 “神经 网 络 库 ”。 用 户 也 可 以 在 TensorFlow 
上 封闭 目 己 的 “上层 库 ”， 如 宁 发 现 没 有 目 己 想 要 的 撒 层 操作 ， 用 户 也 可 以 
自己 写 C++ 代 码 来 丰富 。 关 于 封装 的 “上 层 库 ”"”，TensorFlow 现 在 有 很 多 开 
源 的 上 层 库 工具 ， 极 大 地 减少 了 重复 代码 量 ， 在 第 7 章 中 会 详细 介绍 。 
真正 的 可 移植 性 (true portability) 。TensorFlow 可 以 在 CPU 和 GPU 上 运 
行 ， 以 及 在 台式 机 、 有 服务器、 移动 端 、 云 端 服 务 器 、Docker 容 器 等 各 个 终 
端 运行 。 因 此 ， 当 用 户 有 一 个 新 点 子 ， 就 可 以 立即 在 笔记 本 上 进行 尝试 。 
将 科研 和 产品 结合 在 一 起 (connect research and production) 。 过 去 如 果 
将 一 个 科研 的 机 器 学 习 想 法 应 用 到 商业 化 的 产品 中 ， 需 要 很 多 的 代码 重 写 
工作 。 现 在 TensorFlow 提 供 了 一 个 快速 试验 的 框架 ， 可 以 尝试 新 算法 ， 并 
训练 出 模型 ， 大 大 提高 了 科研 产 出 率 。 

自动 求 微分 (auto-differentiation) 。 求 微分 是 基于 梯度 的 机 器 学 习 算 法 的 
重要 一 步 。 使 用 TensorFlow 后 ， 只 需要 定义 预测 模型 的 结构 和 目标 函数 ， 
将 两 者 结合 在 一 起 后 ， 添 加 相应 的 数据 ，TensorFlow 束 会 自动 完成 计算 微 
分 操作 。 

多 语言 支持 (language options) 。TensorFlow 提 供 了 Python、C++、Java 
接口 来 构建 用 户 的 程序 ， 而 核心 部 分 是 用 C++ 实 现 的 ， 如 图 1-12 所 示 。 第 4 
章 中 会 着 重 讲解 TensorFlow 的 架构 。 用 户 也 可 以 使 用 Jupyter Notebook HH 
来 书写 笔记 、 人 代码， 以 及 可 视 化 每 一 步 的 特征 映射 (feature map) 。 用 户 
也 可 以 开发 更 多 其 他 语言 (如 Go、Lua、R 等 ) 的 接口 。 


C++ 前 端 Python Fifi Java 前 端 Go 前 端 


核心 TensorFlow 执行 系统 


图 1-12 


。 最 优化 性 能 (maximize performance) 。 假 如 用 户 有 一 台 32 个 CPU 内 核 、4 
个 GPU 显卡 的 机 器 ， 如 何 将 计算 机 的 所 有 硬件 计算 资源 全 部 发 挥 出 来 呢 ? 
TensorFlow 给 予 线程 、 队 列 、 分 布 式 计 算 等 文 择 ， 可 以 让 用 户 将 
TensorFlow 的 数据 流 图 上 的 不 同 计算 元 素 分 配 到 不 同 的 设备 上 ， 最 大 化 地 
利用 硬件 资源 。 关 于 线程 和 队列 ， 将 在 4.9 节 中 介绍 ;天 于 分 布 式 ， 将 在 
第 14 章 介绍 。 


1.5.2 ”使 用 TensorFlow 的 公司 


除了 谷歌 在 自己 的 产品 线 上 使 用 TensorFlow 外 ， 国 内 的 各 东 、 小 米 等 公 
司 ， 以 及 国外 的 Uber、eBay、Dropbox、Airbnb 等 公司 ， 都 在 尝试 使 用 
TensorFlow ° 图 1-13 是 摘自 TensorFlow 官 方 网 站 的 日 益 壮 大 的 公司 墙 。 
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图 1-13 
1.5.3 ”TensorFlow 的 发 展 


2016 年 4 月 ，TensorFlow 的 0.8 版 本 就 支持 了 分 布 式 、 文 持 多 GPU 运 算 。 
2016 年 6 月 ，TensorFlow 的 0.9 版 本 改进 了 对 移动 设备 的 支持 。2017 年 2 月 ， 
TensorFlow 的 1.0 正 式 版 本 中 ， 增 加 了 Java 和 Go 的 实验 性 API， 以 及 专用 编译 器 
XLA 和 调试 工具 Debugger， 还 发 布 了 tt.transform ， 专 门 用 来 数据 预 处 理 。 并 且 
还 推出 了 “动态 图 计算 ”TensorFlow Fold， 这 是 被 评价 为 “第 一 次 清晰 地 在 设计 
理念 上 领先 ”13 o 


用 户 还 可 以 使 用 谷歌 公司 的 Paas TensorFlow 产 品 Cloud Machine Learning 来 
做 分 布 式 训 练 。 现 在 也 已 经 有 了 完整 的 TensorFlow Model Zoo ° 


另外 ，TensorFlow 出 色 的 版 本 管理 和 细致 的 官方 文档 手册 ， 以 及 很 容易 找 
到 解答 的 繁 采 的 社区 ， 应 该 能 让 用 户 用 起 来 相当 顺手 。 


截至 2017 年 3 月 ， 用 TensorFlow 作 为 生产 平台 和 科研 基础 研发 已 经 越 来 越 


16 ”机 器 学 习 的 相关 赛事 


说 到 机 器 学 习 ， 不 得 不 提 到 每 年 的 一 些 挑战 赛 。 近 年 来 取得 好 成 绩 的 队 
伍 ， 和 常常 时 使 用 深度 学 习 的 方法 的 。 正 是 这 些 赛 事 激励 着 全 世界 科学 家 不 断 采 
用 更 优化 的 方法 提高 算法 结果 的 准确 率 ， 也 引领 着 年 度 的 深度 学 习 探索 方向 。 


1.6.1 ImageNet 的 ILSVRC 


ILSVRC (ImageNet Large Scale Visual Recognition Challenge， 大 规模 视觉 
识别 挑战 赛 ) 是 用 来 大 规模 评估 对 象 检 测 和 图 像 识 别 的 算法 的 挑战 赛 。 从 2010 
年 开始 ， 至 2016 年 已 举办 7 届 。ImageNet 是 目前 世界 上 最 大 的 图 像 识别 数据 
库 ， 拥 有 超过 1500 万 张 有 标记 的 高 分 辨 率 图 像 的 数据 集 ， 这 些 图 像 分 属于 大 概 
22 000 个 类 别 。ILSVRC 使 用 ImageNet 的 一 个 子 集 ， 分 为 1 000 种 类 别 ， 每 种 类 
别 中 都 有 大 约 1 000 张 图 像 。 总 之 ， 大 约 有 120 万 张 训练 图 像 ，5 万 张 验 证 图 像 
和 15 万 张 测试 图 像 。[13] 图 1-14 所 示 为 ImageNet 的 官方 网 站 。 


IM bal 14,197,122 images, 21841 synsets indexed 
ee 


Explore Download Challenges Publications CoolStuff About 
Not logged in. Login | Signup 


ImageNet is an image database organized according to the WordNet hierar chy (curren! tly only the nouns, ), 
in which each node of the hierarchy is depicted by hundreds and thousands of images. Currently we have 
an avera; ge of over five hundred images per node. We hope ImageNet will become a useful resource for 
researchers, educators, students and all of you who share our passion for pictures. 

Click here to learn more about ImageNet, Click here to join the ImageNet mailing list. 


What do these images have in common? Find out! 


2016 Stanford Vision Lab, Stanford University, Princeton University support@image-net.org Copyright infringement 


图 1-14 


ILSVRC 每 年 洲 请 谷歌 、 微 软 、 百 度 等 IT 企 业 使 用 ImageNet， 测 试 他 们 图 
片 分 类 系统 运行 情况 。 过 去 儿 年 中 ， 该 系统 的 图 像 识别 功能 大 大 提高 ， 出 错 率 
仅 为 约 5% ( 比 人 眼 还 低 ， 人 有 眼 的 识别 错误 率 大 概 在 5.1% (11) 。 在 2015 年 ， 
ILSVRC 的 错误 率 已 经 降低 到 了 3.57% 5! ， 采 用 152 层 的 ResNet 获 得 了 2015 年 
分 类 任务 的 第 一 名 。ILSVRC 历 年 的 Top-5 错 误 率 如 图 1-15 所 示 。 


在 ImageNet 上， 习惯 性 地 报告 两 个 错误 率 : Top-1 和 Top-5。Top-1 错 误 率 是 
指 ， 预 测 输 出 的 概率 最 高 的 类 别 ， 是 否 和 人 工 标 记 的 类 别 一 致 ， 如 果 不 一 致 ， 
此 时 的 概率 。Top-5 错 误 率 是 指 ， 预 测 输 出 的 概率 最 高 的 前 5 个 类 别 当 中 ， 有 没 
有 和 人 工 标 记 的 类 别 一 致 ， 当 5 个 都 不 一 致 时 的 概率 。 例 如 在 图 片 分 类 任务 
下 ， 对 一 张 图 片 进行 预测 ， 输 出 这 张 图 片 分 类 概率 最 高 的 5 个 类 别 ， 只 要 有 一 
个 预测 的 类 别 和 人 工 标注 的 类 别 标记 一 致 ， 束 是 认为 正确 。 当 5 个 都 不 一 致 发 
生 的 概率 就 是 Top-5 错 误 率 。 


28.2 
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图 1-15 


值得 自豪 的 是 ， 在 刚刚 过 去 的 ILSVRC 2016 上 ， 中 国学 术 界 和 工业 界 科研 
团队 包揽 了 多 项 冠军 0 o 


CUImage ( 商 淘 科技 联合 港 中 文 ) : 目标 检测 第 一 。 
Trimps-Soushen (公安 部 三 所 ) : 目标 定位 第 一 。 

CUvideo ( 商 淘 科技 联合 港 中 文 》 : 视频 中 物体 检测 子 项 目 第 一 。 
NUIST (南京 信息 工程 大 学 ) : 视频 中 的 物体 探测 两 个 子 项 目 第 一 。 
Hikvvision (ERAM) : 场景 分 类 第 一 。 

SenseCUSceneParsing ( 商 淘 科技 联合 港 中 文 ) : 场景 分 析 第 一 。 


1.6.2 Kaggle 


如 果 说 ILSVRC 企 业 参 加 的 居多 ， 那 Kaggle 这 个 平台 则 更 多 地 面向 个 人 开 
发 者 。 图 1-16 展 示 的 是 Kaggle 的 官方 网 站 首页 。 


Kaggle 成 立 于 2010 年 ， 是 一 个 进行 数据 发 据 、 数 据 分 析 和 预测 竞赛 的 在 线 
平台 。 与 Kaggle 合 作 之 后 ， 一 家 公司 可 以 提供 一 些 数据 ， 进 而 提出 一 个 问题 ， 
Kaggle 网 站 上 的 计算 机 科学 家 和 数学 家 (也 束 古 现在 的 数据 科学 家 ) 将 领取 任 
务 ， 提 供 潜在 的 解决 方案 。 最 终 胜 出 的 解决 方案 可 以 获得 3 万 美元 到 25 万 美元 
的 奖励 。 也 就 是 说 ，Kaggle 也 是 一 个 众 包 理 念 ， 利 用 全 世界 的 人 才 来 解决 一 个 
大 问题 。 
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Kaggle 这 个 比赛 非常 适合 学 生 参 加 ， 因 为 一 般 在 校 学 生 可 能 拿 不 到 很 多 数 
据 。 此 外 ，Kaggle 不 仅 对 参赛 者 有 算法 能 力 上 的 要 求 ， 而 且 能 锻炼 参赛 者 对 数 
据 的 “嗅觉 >， 使 参赛 者 从 数据 本 身 问 题 出 发 来 寻求 解决 方案 。 
1.6.3 ”天 池 大 数据 竞赛 


“天 池 ?" 是 阿里 搭建 的 一 个 大 数据 竞赛 平台 ， 图 1-17 展 示 的 是 它 的 官方 网 站 
页 面 。 


TIANCHIZE 


Plan Ahead with Dependable Forecasts 


IJCAI 2017 Competition 
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这 个 平台 上 一 般 会 有 一 些 罕 衣 搭配 挑战 、 新 浪 微 博 互 动 预 测 、 用 户 重 复 购 
买 行为 预测 等 赛事 。 平 台 提供 的 “ 赛 题 攻略 ”对 新 手 入 门 有 很 大 的 引领 作用 。 如 
时 在 一 些 项 目 上 取得 不 错 的 成 绩 ， 还 有 丰厚 的 奖金 ， 以 及 进入 阿里 巴巴 的 工作 
机 会“ 


1.7 ”国内 的 人 工 智 能 公司 


MPR, EAH iA LARA a], REA SR] eT 
全 试 水 人 工 智能 方向 。 虽 然 不 可 否认 入 工 稼 能 领域 还 是 有 一 些 泡 沫 存在 ， 但 是 
这 个 技术 领域 的 井 顺 点 确实 来 临 了 ， 确 切 地 说 是 科研 成 采 的 井喷 点 。 我 们 要 做 
的 就 是 加 快 科研 成 果 癌 产品 的 转化 速度 。 


国内 的 腾讯 、 阿 里 、 百 度 三 大 公司 在 人 工 知 能 研究 和 商业 化 探索 方面 走 得 
最 早 。 腾 讯 优 图 是 腾讯 的 人 工 状 能 开放 平台 ; 阿里 云 ET 征 阿 里 巴巴 的 智能 机 
mA; 百度 主要 在 无 人 区 驶 汽车 和 手机 百度 客户 端的 基于 “自然 语言 的 人 机 交 
互 界面 ”的 “ 度 秘 " 上 发 力 。 这 些 都 是 人 工 智 能 在 产业 界 应 用 的 探索 。 此 外 ， 还 


有 搜狗 、 云 从 科技 、 商 汤 科 技 、 昆 仑 万 维 、 格 灵 深 瞳 等 公司 ， 都 在 人 工 智 能 领 
域 纷纷 发 力 。 


下 面 我 们 就 来 介绍 国内 几 家 比较 有 特色 的 做 人 工 智能 的 公司 。 


(1) BEER: X+ (dress+) 。 提 供 图 像 识 别 、 图 像 搜 索 、 物 体 追 踪 
检测 、 图 片 自动 化 标记 、 图 像 视频 智能 分 析 、 边 看 边 严 、 人 脸 识别 和 分 析 等 服 
务 。 其 官方 网 站 的 首页 如 图 1-18 所 示 。 


关于 我 们 


400-870-9095 
| 过 


图 1-18 


(2) 上 旷 视 科技 : Face++。 以 人 脸 识 别 精度 著称 ， 并 且 提 供 人 工 智能 开放 
平台 。 目 前 已 经 和 美 图 秀 秀 、 魔 漫 相机 合作 ， 实 现 美 昌 、 瘦 脸 、 五 官 美化 等 美 
颜 效果 。 此 外 ， 还 和 支付 宝 合 作 ， 未 来 有 望 推出 “Smile to Pay”。 其 官方 网 站 首 
页 如 图 1-19 所 示 。 


EE 
人 工 智 能 开放 平台 


”es 新 版 Face++ 来 效 
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(3) 科大 讯 飞 。 主 要 提供 语音 识别 解决 方案 ， 以 及 语音 合成 、 语 言 去 
(分 词 、 词 性 标注 、 命 名 实体 识别 、 依 存 句 法 分 析 、 语 义 角 色 标 注 等 ) 等 语音 
扩展 服务 ， 有 完善 的 SDK 及 多 种 语言 实现 的 API。 其 官方 网 站 首页 如 图 1-20 所 
示 。 
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1.8 小结 


本 章 主要 介绍 了 人 工 智 能 、 机 器 学 习 、 深 度 学 习 的 关系， 以 及 深度 学 习 的 
学 习 步 台 ， 分 析 了 这 个 领域 的 相 天 人 群 ， 以 及 这 个 领域 的 重要 赛事 。 然 后 ， 全 
面 介 绍 了 TensorFlow 的 作用 、 特 性 ， 并 介绍 了 国内 做 人 工 乔 能 的 公司 ， 讲 述 了 
目前 在 产业 界 进行 的 探索 ， 和 提供 给 开发 者 的 一 些 基 础 平台 。 


[1] 参考 百度 百科 “图 灵 测试 * 。 


[2] ”参考 百度 百科 “人 工 智能 ”。 


[3] 参考 威斯康星 大 学 麦迪 还 分 校 一 个 ppt 的 第 14 页 : http://pages.cs.wisc.edu/ 
~jerryzhu/pub/sslicml07.pdf ° 

[4] 这里， 一 些 人 担心 人 工 智 能 超越 人 类 还 会 产生 哲学 和 伦理 问题 。 我 认为 
做 这 种 讨论 还 为 时 尚 早 ， 严 谨 的 数据 基础 是 要 突破 的 主要 方向 。 


[5] ”推荐 读者 阅读 他 航 老师 的 《统计 学 习 方 法 》， 很 快 束 能 入 1。 


[6] https://github.com/tensorflow/models/tree/master/inception 
[7] https://github.com/zer0n/deepframeworks 

[8] “参考 百度 百科 “ 腊 构 数据 库 ”。 

[9] http://karpathy.github.io/2015/05/21/rnn-effectiveness/ 

[10] https://www.tensorflow.org/ 

[11] http://ipython.org/notebook.html 


[12] ”参考 论文 《Deep Leaning with Dynamic Computation Graphs) : 
https://openreview.net/pdf?id=ryrGawqex ° 


[13] “参考 论文 《ImageNet Classification with Deep Convolutional Neural 


Networks》: http://www.cs.toronto.edu/~ fritz/absps/ imagenet.pdf ° 


[14] ”数据 出 自 论文 《Delving Deep into Rectifiers: Surpassing Human-Level 
Performance on ImageNet Classification) : https://arxiv.org/abs/1502.01852 ° 


[15] ”数据 出 自 论文 《Deep Residual Learning for Image Recognition) : 
https://arxiv.org/abs/1512.03385 ° 


第 2 章 ”TensorEFlow 环 境 的 准备 


本 章 的 主要 任务 就 是 准备 TensorFlow 环 境 。 与 安装 其 他 软件 (如 
Caffe) 相 比 ，TensorFlow 极 容易 安装 ， 环 境 部 署 极 为 轻松 。 


接 下 来 我 们 先 介绍 下 载 TensorFlow 人 代码 仓库 ， 然 后 介绍 基于 pip 的 
安装 方式 、 基 于 Java 的 安装 方式 以 及 使 用 Bazel 的 源 代码 编译 安装 方 
式 . o 


W 


2.1 下 载 TensorFlow 1.1.0 


2017 年 5 月 ，TensorFlow 已 经 开放 到 1.1.0-rc2 版 本 ， 支 持 多 种 操作 系 
统 。 接 下 来 我 们 就 用 1.1.0 版 本 来 介绍 TensorFlow 的 环境 准备 过 程 。 


我 们 从 GitHub 代 码 仓库 中 将 1.1.0 版 本 的 TensorFlow 源 代码 下 载 下 
来 ， 在 Tags 中 选择 1.1.0 版 本 将 跳 转 到 1.1.0 版 本 的 代码 仓库 由， 如 图 2-1 
所 示 。 


Tag: v1.1.0-rc2 ~ New pull request 


Switch branches/tags 


ss | 


Branches Tags 


v V1.1.0-rc2 


v1.1.0-rc1 
v1.1.0-rc0 
v1.0.1 

v1.0.0 
v1.0.0-rc2 
v1.0.0-rc1 
v1.0.0-rcO 
v1.0.0-alpha 
v0.12.0 


v0.11.0 
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根据 图 2-2 下 载 解 压 之 后 即 得 到 源 人 代码， 我们 将 其 保存 在 本 地 目录 
tensorflow-1.1.0 中 。 


aw file | Upload files | Find file Clone or download ~ 


Clone with HTTPS © Use SSH 
Use Git or checkout with SVN using the web URL. 


https: //github.com/tensorflow/tensorflow.g 良 


Open in Desktop Download ZIP 


图 2-2 


2.2 ”基于 pip 的 安装 


pip 是 Python 的 包 管理 工具 ， 主 要 用 于 PyPI 2 (Python Packet 
Index) 上 的 包 。 命 令 简 活 方 便 ， 包 种 类 丰富 ， 社 区 完善 ， 并 且 拥有 轻 
松 升 级 /降级 包 的 能 


2.2.1 Mac OS 环境 准备 
Mac OS 是 本 书 所 讲 内 容 依 赖 的 环境 ， 机 器 配置 如 图 2-3 所 示 。 
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版 本 10.10.5 


MacBook Pro (13 英寸 ，2015 年 初期 ) 
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图 形 卡 Intel Iris Graphics 6100 1536 MB 
序列 号 C17Q7DG4FVH3 
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首先 需要 依赖 Python 环境 ， 以 及 pip 命 令 。 这 在 Mac 和 Linux 系 统 中 
一 般 都 有 。 这 里 使 用 的 Python 版 本 是 2.7.12。TensorFlow 1.1.0hRAFEA 
Python 2 和 Python 3， 读 者 可 以 用 适合 目 己 的 Python 环境 。 


1. 安装 virtualenv 


virtualenv 是 Python 的 沙 箱 工 具 ， 用 于 创建 独立 的 Python 环境 。 我 们 
毕竟 是 在 自己 机 器 上 做 实验 ， 为 了 不 来 回 修改 各 种 环境 变量 ， 这 里 用 
virtualenv 为 TensorFlow 创 建 一 套 “ 隔 离 ”? 的 Python 运 行 环境 。 


首先 ， 用 pip 安 狠 virtualenv: 


$ pip install virtualenv --upgrade 


安装 好 后 创建 一 个 工作 目 永 ， 这 里 直接 在 home 下 创建 了 一 个 
tensorflow 文 件 夹 : 


$ virtualenv --system-site-packages ~/tensorflow 


然后 进入 该 目录 ， 激 活 沙 箱 : 


$ cd ~/tensorflow 
$ source bin/activate 
(tensorflow) $ 


2. 在 virtualenv 里 安装 TensorFlow 


进入 沙 箱 后 ， 执 行 下 面 的 命令 来 安装 TensorFlow: 


(tensorflow) $ pip install tensorflow==1.1.0 


默认 安装 所 需 的 依赖 ， 直 至 安装 成 功 。 


运行 TensorFlow 


照 厦 官方 文档 录入 一 个 们 单 例子 : 


(tensorflow) $ python 

Python 2.7.12 (default, Oct 11 2016, 05:16:02) 

[GCC 4.2.1 Compatible Apple LLVM 7.0.2 (clang-700.1.81)] on darwin 
Type "help", "copyright", "credits" or "license" for more 
information. 


>>> 
>>> import tensorflow as tf 

>>> hello = tf.constant('Hello, TensorFlow! ' ) 
>>> sess = tf.Session() 

>>> print sess.run(hello) 


Hello, TensorFlow! 


恭喜 ，TensorFlow 环 境 已 经 安装 成 功 了 。 


注意 ， 每 次 需要 运行 TensorFlow 程 序 时 ， 都 需要 进入 tensorflow 目 
录 ， 然 后 执行 Source bin/activate 命 令 来 激活 沙 箱 。 


2.2.2 ”UbuntuyLinux 环 境 准 备 


使 用 Ubuntu/Linux 的 读者 可 以 照 着 Mac OS 的 环境 准备 ， 先 安装 
virtualenv 的 沙 盒 环 境 ， 再 用 pip 安 装 TensorFlow 软 件 包 。 


TensorFlow 的 Ubuntu/Linux 安 装 分 为 CPU 版 本 和 GPU 上 版本， 下面 来 


(1) 安 闭 仅 文 持 CPU 的 版 本 ， 直 接 安装 如 下 : 


$ pip install tensorflow==1.1.0 


(2) 安装 支持 GPU 的 版 本 的 前 提 是 已 经 安装 了 CUDA SDK, Bi 
使 用 下 面 的 命令 : 


$ pip install tensorflow-gpu==1.1.0 


2.2.3 Windows VES 


TensorFlow 1.1.0 版 本 支持 Windows 7 ` Windows 10 和 Server 2016 ° 
因为 使 用 Windows PowerShell 代 替 CMD， 所 以 下 面 的 命令 均 在 


PowerShell 下 执行 。 这 里 使 用 的 是 windows 10 系 统 ， 使 用 微软 小 娜 呼唤 
出 PowerShell， 如 图 2-4 所 示 。 


| BY Windows PowerShell Web o x 


Window è 
EMA i (c 6 N oft Corporationo 保留 所 有 权利 。 


图 2-4 


TensorFlow 在 Windows 上 只 支持 64 位 Python 3.5.x， 可 以 通过 Python 
Releases for Windows |?! 或 Python 3.5 from Anaconda 下 载 并 安装 Python 
3.5.2 i 选择 正确 的 操作 系统 ) 。 下 载 后 ， 安 装 界面 如 图 2-5 所 示 ， 
注意 勾 选 “Add Python 3.5 to PATH” ° 


e Python 3.5.2 (64-bit) Setup ka- x 


Install Python 3.5.2 (64-bit) 


Select Install Now to install Python with default settings, or choose 
Customize to enable or disable features. 


@ Install Now 
C:\Users\jiaxuan\AppData\Local\Programs\Python\Python35 


Includes IDLE, pip and documentation 
Creates shortcuts and file associations 


一 Customize installation 
Choose location and features 


Install launcher for all users (recommended) 


ee 


图 2-5 


选择 Customize installation ( 自 定 义 安 装 ) ， 进 入 下 一 步 。 如 图 2-6 
所 示 ， 可 以 看 出 Python 包 自 带 pip 命 令 。 


e Python 3.5.2 (64-bit) Setup kej- x 


O 
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| Installs the Python documentation file. 


Installs pip, which can download and install other Python packages. 
M tel/tk and IDLE 

Installs tkinter and the IDLE development environment 
M Python test suite 

Installs the standard library test suite. 


M py launcher [M] for all users (requires elevation) 


Installs the global ‘py’ launcher to make it easier to start Python. 


Back Next Cancel 


图 2-6 


然后 ， 等 待 安装 完成 ， 再 到 PowerShell 中 输入 python， 看 到 进入 终 
端的 命令 提示 则 代表 python 安 装 成 功 。 在 “开始 ”->“ 所 有 程序 ?下 也 可 以 
找到 Python 终端 。 安 装 成 功 后 的 界面 如 图 2-7 所 示 。 


à Microsoft Corporations 保留 所 有 权利 。 


4def2a2901a5, Jun 25 2016, 22:18:55) [MSC v.1900 64 bit (AMD64)] on win32 
ght, redits or license for more information 


图 2-7 


TensorFlow 的 Windows 安 装 也 分 为 CPU 版 本 和 GPU 版 本 ， 下 面 来 分 
别 介 绍 。 


(1) CPU 版 本 安装 。 在 PowerShell 中 执行 如 下 命令 ， 默 认 安 装 
TensorFlow 1.1.0 版 本 及 相关 依赖 。 


C:\> pip install tensorflow==1.1.0 


安装 完成 后 如 图 2-8 所 示 。 


PS C:Wsers\lijiaxuan@i> pip install tensorf low==1.1.8rc2 
Collecting tensorf low==1.1.@rc2 

Downloading tensorf low-1.1.@rc2—cp35—cp35m—win_amd64.whl <19 .4MB> 

100, (BS 辆 辆 图 回回 图 图 E 国 面 国 国 国 国 ，19 .4MB 46k8/s 

Requirement already tisfied: numpy>=1.11.@ in c:\users\lijiaxuan@i \appdata\local\programs \python\python35\1lib\s ite—pac 
kages (from tensorf low -1.@rc2> 
Requirement already tisfied: wheel>=@.26 in c:\users\lijiaxuan@1 \appdata\local\programs \python\python35\1lib\s ite—-packa 
pes <from tensorf low 1.80rc2> 
Requirement already sa ed: protobuf >=3.2.8 in c:\users\lijiaxuan@1 \appdata\local\programs \python python35\1ihb\site-p 
lackages (from tensorf low==1.1.@rc2> 
Collecting werkzeug>=@.11.16 (from tensorf low==1.1.@rc2> 

Downloading Werkzeug—@.12 .1—py2.py3-none-any.whl ¢312kB> 


MMMM: 317kB 489kB/s 


jiaxuan@1 \appdata\local\programs \python \python35\1ib\site—packa 


: setuptools in c:\users\lijiaxuan@i \appdata\local\programs \python python35\1ib\site—packag 
jes 《from protobuf >=3 .2.6—>tensorf low==1.1.@rc2> 
Installing collected packages: werkzeug,. tensorf low 
Found existing installation: tensorflow 1.6.1 
Uninstalling tensorflow-1.6.1: 
Successfully uninstalled tensorflow-1.6.1 
Successfully installed tensorflow-1.1.@rc2 werkzeug—@.12.1 


图 2-8 


(2) GPU 版 本 安装 。 如 果 读 者 的 机 器 支持 安装 GPU 版 本 ， 请 先 安 
装 如 下 两 个 驱动 : CUDA! 和 CuDNN |! (后 者 需要 注册 NVIDIA 用 
户 ， 并 加 入 CuDNN 开 发 组 ， 然 后 填 若 干 问卷 ， 才 可 以 下 载 ) 。 选 择 下 
载 版 本 时 要 注意 与 CUDA 版 本 匹配 。 解 压 后 保存 至 CUDA 的 安装 目录 
下 。 然 后 ， 安 装 GPU 版 本 ， 安 装 命令 如 下 : 


C:\> pip install tensorflow-gpu==1.1.0 


y— 一 


2. 1847TensorFlow 


在 微软 小 娜 中 ， 搜 索 “python”， 直 接 模 糊 匹 配 ， 调 出 命令 窗口 ， 输 
入 测试 代码 : 


>>>import tensorflow as tf 
>>>sess = tf.Session() 
>>>a = tf.constant(10) 


>>>b = tf.constant(22) 
>>>print(sess.run(a + b)) 
32 


正确 输出 结果 32， 安 装 完毕 。 
2.3 ”基于 Java 的 安装 


基于 Java 的 方式 安装 ， 可 以 参照 TensorFlow 官 方 GitHub 的 安装 方法 
[6] fo} 


我 们 需要 下 载 JAR (Java ARchive) libtensorflow-1.1.0-rc2.jar 和 运 
行 TensorFlow 需 要 的 本 地 库 。 这 些 都 可 以 直接 从 官方 GitHub 上 下 载 ， 如 
图 2-9 所 示 。 


1. Download the Java archive (JAR): libtensorflow.jar (optionally, the Java sources: libtensorflow-src.jan. 


2. Download the native library. GPU-enabled versions required CUDA 8 and cuDNN 5.1. For other versions, the native 
library will need to be built from source (see below). 


o Linux: CPU-only, GPU-enabled 
o OS X: CPU-only, GPU-enabled 


图 2-9 


这 里 仍然 用 Mac OS X 系 统 ， 下 载 后 的 文件 如 下 : 


libtensorflow-1.1.0-rc2.jar 


libtensorflow_jni-cpu-darwin-x86_64-1.1.0-rc2.tar.gz 


对 libtensorflow_jni-cpu-darwin-x86_64-1.1.0-rc2.tar.gz 进 行 解 讨 ， 解 
压 到 当前 目录 jni 。 


tar zxvf libtensorflow_jni-cpu-darwin-x86_64-1.1.0-rc2.tar.gz -C 
./jni 


RAFE T TensorFlowhi Java Z% ° FERITE — AAT R 
一 下 ， 看 能 否 正确 输出 TensorFlow 的 版 本 。 将 下 面 代码 写 入 文件 ， 命 名 
为 MyClass.java ° 


import org.tensorflow.TensorFlow; 


public class MyClass { 
public static void main(String[] args) { 
System.out.println("I'm using TensorFlow version: " + 
TensorFlow.version()); 


} 
} 


然后 进行 编译 : 


javac -cp libtensorflow-1.1.0-rc2.jar MyClass.java 


最 后 执行 ， 成 功 输出 所 采用 的 TensorFlow 版 本 ， 如 图 2-10 所 示 。 


Ctf) > java java -cp libtensorflow-1.1.@-rc2.jar:. -Djava.library.path=./jni MyClass 


I'm using TensorFlow version: 1.1.@-rc2 


图 2-10 


2.4 从 源 代 码 安装 


从 源 代码 编译 安装 ， 需 要 使 用 Bazel 编 译 工 具 。 我 们 先 安装 Bazel 工 
\。 在 需要 依赖 的 JDK 8 配 好 之 后 ， 在 Mac 笔 记 本 上 直接 执行 下 面 命 
安装 版 本 是 0.4.4: 


a> Yo 


brew install bazel 


其 他 操作 系统 (如 Ubuntu) 的 计算 机 对 Bazel 的 安装 ， 可 以 采用 apt- 
get 等 方式 。 


先进 入 tensorflow-1.1.0 的 源 代 人 码 目录 ， 运 行 ./configure 脚 本 会 出 现 
所 采用 的 Python 路 径 、 是 否 用 HDFS、 是 否 用 Google Cloud Platform 等 选 
项 ， 读 者 可 以 根据 自己 的 需要 进行 配置 ， 或 者 直接 按 “ 回 车 ”采用 默认 
配置 。 


下 面 我 们 演示 使 用 CPU 版 本 的 编译 。 具 体 如 下 : 


> tensorflow-1.1.0 ./configure 

Please specify the location of python. [Default is 
/usr/local/bin/python]: 

Please specify optimization flags to use during compilation 
[Default is -march=native]: 

Do you wish to use jemalloc as the malloc implementation? (Linux 
only) [Y/n] 

jemalloc enabled on Linux 

Do you wish to build TensorFlow with Google Cloud Platform support? 
[y/N] 

No Google Cloud Platform support will be enabled for TensorFlow 
Do you wish to build TensorFlow with Hadoop File System support? 


[y/N] 


No Hadoop File System support will be enabled for TensorFlow 

Do you wish to build TensorFlow with the XLA just-in-time compiler 
(experimental)? [y/N] 

No XLA support will be enabled for TensorFlow 

Found possible Python library paths: 


/usr/local/Cellar/python/2.7.12_2/Frameworks/Python. framework/Versi 

ons/2.7/lib/python2.7/site-packages 
/Library/Python/2.7/site-packages 

Please input the desired Python library path to use. Default is 

[/usr/local/Cellar/ 

python/2.7.12_2/Frameworks/Python.framework/Versions/2.7/1lib/python 

2.7/site-packages | 


Using python library path: 
/usr/local/Cellar/python/2.7.12_2/Frameworks/Python. 
framework/Versions/2.7/lib/python2.7/site-packages 

Do you wish to build TensorFlow with OpenCL support? [y/N] 
No OpenCL support will be enabled for TensorFlow 

Do you wish to build TensorFlow with CUDA support? [y/N] 
No CUDA support will be enabled for TensorFlow 
Configuration finished 


随后 ， 我 们 执行 bazel 编 译 命令 ， 因 为 编译 时 需要 耗费 大 量 的 内 
存 ， 加 入 --local_resources 2048,4,1.0 来 限制 内 存 大 小 。 具 体 如 下 : 


bazel build --local resources 2048,4,1.0 -c opt 
//tensorflow/tools/pip_package:build_ pip_package 
bazel-bin/tensorflow/tools/pip_package/build_pip_package 
/tmp/tensorflow_pkg 


然后 进入 /tmp/tensorflow_pkg， 可 以 看 到 生成 的 文件 tensorflow- 
1.1.0-cp27-cp27m-macosx_10_12_intelwhl， 直 接 安 装 如 下 : 


pip install /tmp/tensorflow_pkg/tensorflow-1.1.0-cp27-cp27m- 


macosx_10 12 intel.whl 


使 用 GPU 版 本 的 编译 需要 配置 中 选择 使 用 CUDA， 人 然后 填写 对 应 的 
CUDA SDK 版 本 等 ， 其 他 步 又 均 相 同 。 


2.5 ”依赖 的 其 他 模块 


TensorFlow 在 运行 中 需要 做 一 些 矩 阵 运 滤 ， 时 第 会 用 到 一 些 第 三 方 
模块 ， 此 外 ， 在 处 理 音频 、 目 然 语言 时 需要 也 要 用 到 一 些 模块 ， 建 议 
一 并 安 猴 好 。 本 书 “ 实 成 篇 ?中 会 大 量 用 到 这 些 扩 展 。 


下 面 我 们 就 来 简单 介绍 TensorFlow 依 赖 的 一 些 模块 。 
2.0.1 numpy 


numpy 是 用 来 存储 和 处 理 大 型 矩阵 的 科学 计算 包 ， 比 Python 自身 的 
BREJK (nested list structure) 要 高 效 的 多 。 它 包括 : 


一 个 强大 的 N 维 数组 对 象 Array; 

比较 成 熟 的 函数 库 ; 

用 于 整合 C/C++ 和 Fortran 代 码 的 工具 包 ; 
实用 的 线性 代数 、 传 里 时 变换 和 随机 数 生 成 范 数 。 


numpy 模 块 的 安装 方法 如 下 : 


pip install numpy --upgrade 


2.5.2 miatplotlib 


matplotlib 是 Python 最 著名 的 绘图 库 ， 它 提供 了 一 整套 和 MAITLAB 
相似 的 命令 API， 十 分 适合 交互 式 地 进行 制 岁 。 用 它 可 以 画 出 美丽 的 线 
图 、 散 点 图 、 等 高 线 图 、 条 形 图 、 柱 状 图 、3D 图 等 ,而且 还 可 以 方便 
地 将 它 作为 绘图 控件 ， 舱 入 GUI 应用 程序 中 。 在 后 面 的 实例 中 ， 需 要 可 
视 化 地 展现 训练 结果 或 者 中 间 的 特征 映射 ， 束 很 方便 。 


matplotlib 模 块 的 安装 方法 如 下 : 


pip install matplotlib --upgrade 


2.5.3 jupyter 


jupyter notebook 是 Ipython 的 升级 版 ， 能 够 在 浏览 器 中 创建 和 共享 
代码 、 方 程 、 说 明文 档 。 界 面相 当 友 好 ， 功 能 也 很 强大 。 其 实 ，jupyter 
实际 就 是 一 个 基于 Tornado 框 架 的 Web 应 用 ， 使 用 MQ 进行 消息 管理 。 


jupyter 模 块 的 安装 方法 如 下 : 


pip install jupyter --upgrade 


打开 jupyter notebook: 


jupyter notebook 


出 现 如 下 显示 : 


[W 06:02:13.434 NotebookApp] Widgets are unavailable. Please 


install widgetsnbextension or ipywidgets 4.0 

[I 06:02:13.454 NotebookApp] Serving notebooks from local 
directory: /Users/baidu/ Downloads/tensorflow-0.12/tensorflow 

[I 06:02:13.454 NotebookApp] 0 active kernels 

[I 06:02:13.454 NotebookApp] The Jupyter Notebook is running at: 
http://localhost : 8888/ 

[I 06:02:13.454 NotebookApp] Use Control-C to stop this server and 
shut down all kernels (twice to skip confirmation). 


浏览 器 目 动 打开 ， 启 动 成 功 ， 界 面 如 图 2-11 所 示 。 其 中 ， 在 
tensorflow-1.1.0/tensorflow/ examples/udacity 下 有 许多 扩展 名 为 .ipynb 的 
示例 文件 ， 读 者 可 以 自行 在 浏 贤 器 中 打开 和 学 习 。 


二 Jupyter 


Files Running Clusters 


Select items to perform actions on them. Upload Newry © 


图 2-11 
2.5.4 scikit-image 


scikit-image |”! 有 一 组 图 像 处 理 的 算法 ， 可 以 使 过 滤 一 张 图 片 变 
很 简单 ， 非 党 适合 用 于 对 图 像 的 预 处 理 。 


scikit-image 模 块 的 安装 方法 如 下 : 


pip install scikit-image --upgrade 


2.5.5 librosa 


librosa 是 用 Python 进行 音频 特征 提取 的 第 三 方 库 ， 有 很 多 方式 可 以 
提取 音频 特征 。 


librosa 模 块 的 安装 如 下 : 


pip install librosa --upgrade 


2.5.6 nltk 


nitk B 模块 中 包含 着 大 量 的 语料库 ， 可 以 很 方便 地 完成 很 多 自然 
语言 处 理 的 任务 ， 包 括 分 词 、 词 性 标注 、 命 名 实体 识别 (NER) 及 名 
法 分 析 。 


nltk 的 安装 方法 : 


pip install nltk --upgrade 


安装 完成 后 ， 需 要 导入 nltk 工 具 包 ， 下 载 nltk 数 据 源 ， 如 下 : 


>>> import nltk 


>>> nltk.download() 


2.5.7 keras 


Keras 是 第 一 个 被 添加 到 TensorFlow 核 心中 的 高 级 别 框架 ， 成 为 
Tensorflow 的 默认 API 。 第 7 章 中 会 详细 讲解 Keras 的 使 用 。 


keras 模 块 的 安装 方法 如 下 : 


pip install keras --upgrade 


2.5.8 tflearn 


TFLearn 是 男 一 个 支持 TensorFlow 的 第 三 方 框架 ， 第 7 章 中 会 详细 讲 
解 TFLearn 的 使 用 。 


tflearn 模 块 的 安装 方法 如 下 : 


pip install git+https://github.com/tflearn/tflearn.git 


2.6 小 结 


本 章 介绍 了 TensorFlow 环 境 的 准备 ， 分 别 讲解 了 使 用 pip 命 令 、Java 
JAR 文 件 、 用 Bazel 工 具 对 源 代码 进行 编译 这 3 种 安装 方式 ， 以 及 在 pip 安 
装 方 式 下 ， 在 Mac、Ubuntu/Linux、Windows 系 统 上 如 何 安装 CPU 版 本 
和 GPU 版 本 的 TensorFlow ° 


最 后 ， 讲 了 一 些 常 用 扩展 的 作用 和 安装 ， 这 些 扩展 在 本 书 的 “实战 
篇 ”中 会 用 到 。 


[1] https://github.com/tensorflow/tensorflow/tree/v1.1.0 


[2] https://pypi.python.org/pypi 


[3] 
[4] 
[5] 
[6] 
[7] 


[8] 


https://ww 


w.python.org/downloads/windows/ 


/cuda-downloads 


https://developer.nvidia.com 
https://developer.nvidia.com/cudnn 
https://github.com/tensorflow/tensorflow/tree/master/tensorflow/java 
http://scikit-image.org/ 


http://www.nitk.org/ 


第 3 章 “可视化 TensorFlow 


可 视 化 是 认识 程序 的 最 直观 方式 。 在 做 数据 分 析 时 ， 可 视 化 一 般 是 数据 分 
析 最 后 一 步 的 结果 呈现 。 把 可 视 化 放 到 “基础 篇 >， 是 为 了 让 读者 在 安装 完成 
后 ， 就 能 先 看 一 下 TensorFlow 到 底 有 哪些 功能 ， 直 观感 受 一 下 深度 学 习 的 学 习 
成 果 ， 让 学 习 目 标 一 目 了 7 然 。 


3.1 PlayGround 


PlayGround H! 是 一 个 用 于 教学 目的 的 简单 神经 网 络 的 在 线 演示 、 实 验 的 
图 形 化 平台 ， 非 常 强 大 地 可 视 化 了 神经 网 络 的 训练 过 程 。 使 用 它 可 以 在 浏览 器 
里 训练 神经 网 络 ， 对 Tensorflow 有 一 个 感性 的 认识 。 


PlayGround 界 面 从 左 到 右 由 数据 (DATA) 、 特 征 (FEATURES) 、 神 经 
网 络 的 隐藏 层 (HIDDEN LAYERS) 和 层 中 的 连接 线 和 输出 (OPUPUT) 几 个 
部 分 组 成 ， 如 图 3-1 所 示 。 


Tinker With a Neural Network Right Here in Your Browser 


Dont Worry, You Cant Break It. We Promise. 


b Iterations Learning rate Activation Regularization Regularization rate Problem type 
Pl 
000,000 0.03 ” Tanh X None ” 0 X Classification X 
DATA FEATURES + — 2 HIDDEN LAYERS OUTPUT 
Which dataset do Which properties Test loss 0.522 
you want to use? do you want to aining loss 
a a D & 和 他 Trai ss 0.526 
= 4 
” 
d 


图 3-1 


3.1.1 数据 


在 二 维 平面 内 ， 点 被 标记 成 两 种 颜色 。 深 色 (电脑 屏幕 显示 为 蓝 色 ) 代表 
FE, RE (电脑 屏幕 显示 为 黄色 ) 代表 负 值 。 这 两 种 颜色 表示 想 要 区 分 的 两 
类 ， 如 图 3-2 所 示 。 


DATA 


Which dataset do 
you want to use? 


图 3-2 


网 站 提供 了 4 种 不 同形 态 的 数据 ， 分 别 是 圆 形 、 腊 或 、 高 斯 和 螺旋 ， 如 岁 
3-3 所 示 。 神 经 网 络 会 根据 所 给 的 数据 进行 训练 ， 再 分 类 规律 相同 的 点 。 


PlayGournd 中 的 数据 配置 非常 灵活 ， 可 以 调整 噪声 (noise) 的 大 小 。 图 3- 
4 展示 的 是 噪声 为 0、25 和 50 时 的 数据 分 布 。 
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图 3-4 


PlayGournd 中 也 可 以 改变 训练 数据 和 测试 数据 的 比例 (ratio) 
的 是 训练 数据 和 测试 数据 比例 为 1 :9 和 9 : 1 时 的 情况 。 


。 图 3-5 展 示 
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图 3-5 


此 外 ，PlayGournd 中 还 可 以 调整 输入 的 每 批 (batch) 数据 的 多 少 ， 调 整 范 
围 可 以 是 1~30， 就 是 说 每 批 进入 神经 网 络 数据 的 点 可 以 1~30 个 ， 如 图 3-6 所 
示 o 


Batch size: 15 
—— o 


图 3-6 


3.1.2 ”特征 


接 下 来 我 们 需要 做 特征 提取 (feature extraction) ， 每 一 个 点 都 有 X 1 MX, 
两 个 特征 ， 由 这 两 个 特征 还 可 以 衍生 出 许多 其 他 特征 ， 如 X1X1 XXX 
1X» > sin(X 1 )、sin(X , ) 等 ， 如 图 3-7 所 示 。 
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图 3-7 
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从 颜色 上 ，X1 左边 浅 色 (电脑 屏幕 显示 为 黄色 ) 是 负 ， 右 边 深 色 (电脑 
屏幕 显示 为 蓝 色 ) 是 正 ，X1 表示 此 点 的 横 坐 标 值 。 同 理 ，X， 上 边 深 色 是 正 ， 
下 边 浅 色 是 人 负 ，X ,表示 此 后 的 纵 坐 标 值 。X 1X1 是 关于 横 坐 标的 "抛物线 ” 信 
Kh, XX ERTS WAS, XX, 是 “ 双 曲 抛物 面 * 的 信息 ， 
sin(X 1 ) 是 关于 横 坐 标的 “正弦 函数 ”信息 ，sin(X , eR TIAL AYE SAN 
数 ” 信 息 。 


因此 ， 我 们 要 学 习 的 分 类 器 (classifier) 就 是 要 结合 上 述 一 种 或 者 多 种 特 
征 ， 画 出 一 条 或 者 多 条 线 ， 把 原始 的 蓝 色 和 黄色 数据 分 开 。 


3.1.3 ”隐藏 层 


我 们 可 以 设置 隐藏 层 的 多 少 ， 以 及 每 个 隐藏 层 促 经 元 的 数量 ， 如 图 3-8 所 
ZR œ 
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一 一 The outputs are 


隐藏 层 之 间 的 连接 线 表示 权重 (weight) ， 深 色 ( 蓝 色 ) 表示 用 神经 元 的 
原始 输出 ， 浅 色 (黄色 ) 表示 用 神经 元 的 负 输 出 。 连 接线 的 粗细 和 深浅 表示 权 
重 的 绝对 值 大 小 。 鼠 标 放 在 线 上 可 以 看 到 具体 值 ， 也 可 以 修改 值 ， 如 图 3-9 所 
示 。 


X 
1 | Click anywhere to edit. 
Weight is -0.41| < 
| aN 
N 


修改 值 时 ， 同 时 要 考虑 激活 函数 ， 例 如 ， 当 换 成 Sigmoid 时 ， 会 发 现 没 有 
负 向 的 黄色 区 域 了 ， 因 为 Sigmoid 的 值 域 是 (0,1)， 如 图 3-10 所 示 。 
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图 3-10 


下 一 层 神 经 网 络 的 神经 元 会 对 这 一 层 的 输出 再 进行 组 合 。 组 合 时 ， 根 据 上 
一 次 预测 的 准确 性 ， 我 们 会 通过 反 向 传播 给 每 个 组 合 不 同 的 权重 。 组 合 时 连接 
线 的 粗细 和 深 浅 会 发 生变 化 ， 连 接线 的 颜色 越 深 越 粗 ， 表 示 权 重 越 大 。 


3.1.4 输出 


输出 的 目的 是 使 黄色 点 都 归于 黄色 背景 ， 蓝 色 点 都 归于 蓝 色 背景 ， 背 景 颜 
色 的 深浅 代表 可 能 性 的 强 弱 。 


我 们 选 定 螺旋 形 数据 ，7 个 特征 全 部 输入 ， 进 行 试验 。 选 择 只 有 3 个 隐藏 层 
时 ， 第 一 个 隐藏 层 设 置 8 个 神经 元 ， 第 二 个 隐藏 层 设置 4 个 神经 元 ， 第 三 个 隐藏 
层 设置 2 个 神经 元 。 训 练 大 概 2 分 钟 ， 测 试 损失 (test loss) 和 训练 损失 
(training loss) 就 不 再 下 降 了 “。 训 练 完成 时 可 以 看 出 ， 我 们 的 神经 网 络 已 经 完 
美 地 分 离 出 了 楼 色 点 和 蓝 色 点 ， 如 图 3-11 所 示 。 
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图 3-11 


假设 我 们 只 输入 最 基本 的 前 4 个 特征 ， 给 足 多 个 隐藏 层 ， 看 看 神经 网 络 的 
表现 。 假 设 加 入 6 个 隐藏 层 ， 前 4 层 每 层 有 8 个 神经 元 ， 第 五 层 有 6 个 神经 元 ， 第 
六 层 有 2 个 神经 元 。 结 果 如 图 3-12 所 示 。 
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图 3-12 


我 们 发 现 ， 通 过 增加 神经 元 的 个 数 和 神经 网 络 的 隐藏 层 数 ， 即 使 没有 输入 
许多 特征 ， 神 经 网 络 也 能 正确 地 分 类 。 但 是， 假如 我 们 要 分 类 的 物体 是 独 猫 狗 
狗 的 图 片 ， 而 不 是 肉眼 能 够 直接 识别 出 特征 的 黄 点 和 监 点 昵 ? 这 时 候 怎 样 去 提 
取 那 些 真 正 有 效 的 特征 呢 ? 


有 了 神经 网 络 ， 我 们 的 系统 目 己 驶 能 学 习 到 哪些 特征 是 有 效 的 、 哪 些 是 无 
效 的 ， 通 过 自己 学 习 的 这 些 特 征 ， 就 可 以 做 到 自己 分 类 ， 这 就 大 大 提高 了 我 们 
解决 语音 、 图 像 这 种 复杂 抽象 问题 的 能 力 。 


3.2 TensorBoard !2! 


TensorBoard 是 TensorFlow 目 带 的 一 个 强大 的 可 视 化 工具 ， 世 是 一 个 Web 应 
用 程序 套件 。TensorBoard 目 前 支持 7 种 可 视 化 ， 即 SCALARS ` IMAGES ` 
AUDIO、GRAPHS、DISTRIBUTIONS、HISTOGRAMS 和 EMBEDDINGS。 这 
7 种 可 视 化 的 主要 功能 如 下 。 


SCALARS: 展示 训练 过 程 中 的 准确 率 、 损 失 值 、 权 重 / 偏 置 的 变化 情 ? 
IMAGES: 展示 训练 过 程 中 记录 的 图 像 。 

AUDIO: 展示 训练 过 程 中 记录 的 音频 。 

GRAPHS: 展示 模型 的 数据 流 图 ， 以 及 训练 在 各 个 设备 上 消耗 的 内 存 和 时 
间 。 

DISTRIBUTIONS: 展示 训练 过 程 中 记录 的 数据 的 分 布 图 。 
HISTOGRAMS: 展示 训练 过 程 中 记录 的 数据 的 柱状 图 。 

EMBEDDINGS: 展示 词 向 量 (如 Word2vec) 后 的 投影 分 布 。 


TensorBoard 通 过 运行 一 个 本 地 服务 器 ， 来 监听 6006 端 口 。 在 浏览 絮 发 出 
请 求 时 ， 分 析 训 练 时 记录 的 数据 ， 绘 制 训练 过 程 中 的 图 像 。 在 9.3 广 的 MNIST 


示例 中 ， 会 逐一 讲解 TensorBoard 的 图 像 绘制 ， 让 读者 更 好 地 了 解 训练 的 过 程 
中 发 生 了 什么 。 本 节 我 们 就 先 看 一 下 TensorBoard 能 够 绘制 出 哪些 东西 。 


TensorBoard 的 可 视 化 界面 如 图 3-13 所 示 。 


TensorBoard 
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[C Split on underscores cross_entropy_ 1 


(CD Data download links dropout 
Tooltip sorting method: default layer1 
layer2 
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— e 0.6 


Horizontal Axis 
STEP RELATIVE WALL 


Runs 
Write a regex to filter runs 
O test 0 


TOGGLE ALL RUNS 


/tmp/tensorflow/mnist/logs/mnist_with_ 
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图 3-13 


从 图 3-13 中 可 以 看 到 ， 在 标题 处 有 上 述 几 个 可 视 化 面板 ， 下 面 通过 一 个 示 
例 ， 分 别 介绍 这 些 可 视 化 面板 的 功能 。 


这 里 ， 我 们 运行 手写 数字 识别 的 入 门 例子 ， 如 下 : 


python tensorflow- 


1.1.0/tensorflow/examples/tutorials/mnist/mnist_with_summaries.py 


然后 ， 打 开 TensorBoard 面 板 : 


tensorboard --logdir=/tmp/mnist/logs/mnist_with_summaries 


这 时 ， 输 出 : 


Starting TensorBoard 39 on port 6006 
(You can navigate to http://192.168.0.101:6006) 


我 们 就 可 以 在 浏览 器 中 打开 http://192.168.0.101:6006， 查 看 面板 的 各 项 功 


ah 
BE ° 


3.2.1 SCALARS 面 板 


SCALARS 面 板 的 左边 是 一 些 选项 ， 包 括 Split on undercores (用 下 划 线 分 
开 显 示 ) 、Data downloadlinks (数据 下 载 链接 ) ` Smoothing (图 像 的 曲线 平 
TEE) 以 及 Horizontal Axis (水 平 轴 ) 的 表示 ， 其 中 水 平 轴 的 表示 分 3 种 
(STEP 代 表 迭 代 次 数 ，RELATIVE 代 表 按 照 训 练 集 和 测试 集 的 相对 值 ，WALL 
代表 按照 时 间 ) ， 如 图 3-14 左 边 所 示 。 图 3-14 右 边 给 出 了 准确 率 和 交叉 业 损 失 
画 数 值 的 变化 曲线 《迭代 次 数 是 1000 次 ) ° 


Write a regexto create atag group x accuracy_1 


[_] Split on underscores accuracy_1 
| 
[| Data download links 0.900 | 
Tooltip sorting method: default X 0.700 | 

0.500 
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图 3-14 


SCALARS 面 板 中 还 绘制 了 每 一 层 的 偏 置 (biases) 和 权重 (weights) 的 
变化 曲线 ， 包 括 每 次 迭代 中 的 最 大 值 、 最 小 值 、 平 均值 和 标准 差 ， 如 图 3-15 所 
示 o 


layer1 


layer1/biases/summaries/max layer1/biases/summaries/mean 
a 
— 0.101 
0.160 0.101 
0.140 0.101 
0.100 
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0.0998 
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La = ta 一 一 
图 3-15 


3.2.2 ”IMAGES 面板 


图 3-16 展 示 了 训练 数据 集 和 测试 数据 集 经 过 预 处 理 后 图 片 的 样子 。 


x input_reshape 


input_reshape/input/image/0 input_reshape/input/image/0 
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图 3-16 


3.2.3 ” AUDIO 面板 


AUDIO 面 板 是 展示 训练 过 程 中 处 理 的 音频 数据 。 这 里 暂时 没有 找到 合适 
的 例子 ， 读 者 了 解 即 可 。 


3.2.4 ”GRAPHS 面 板 


GRAPHS 面 板 是 对 理解 神经 网 络 结构 最 有 帮助 的 一 个 面板 ， 它 直观 地 展示 
了 数据 流 图 。 图 3-17 所 示 界 面 中 节点 之 间 的 连 线 即 为 数据 流 ， 连 线 越 粗 ， 说 
明 在 两 个 节点 之 间 流 动 的 张 量 (tensor) 越 多 。 
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图 3-17 


在 GRAPHS 面 板 的 左 侧 ， 可 以 选择 迭代 步 怠 。 可 以 用 不 同 Color (Bit) 
来 表示 不 同 的 Structure (整个 数据 流 图 的 结构 ) ， 或 者 用 不 同 Color 来 表示 不 同 
Device (设备 ) 。 例 如 ， 当 使 用 多 个 GPU 时 ， 各 个 市 点 分 别 使 用 的 GPU 不 同 。 


当 我 们 选择 特定 的 某 次 迭代 (如 第 899 次 ) 时 ， 可 以 显示 出 各 个 节点 的 
Compute time (计算 时 间 ) 以 及 Memory (内 存 消 耗 ) ， 如 图 3-18 所 示 。 
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图 3-18 
3.2.5 DISTRIBUTIONS 面 板 


DISTRIBUTIONS 面 板 和 接 下 来 要 讲 的 HISTOGRAMS 面 板 类 似 ， 只 不 过 是 
用 平面 来 表示 来 自 特定 层 的 激活 前 后 、 权 重 和 偏 置 的 分 布 。 图 3-19 展 示 的 是 激 
活 之 前 和 激活 之 后 的 数据 分 布 。 
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图 3-19 
3.2.6 ”HISTOGRAMS 面 板 


HISTOGRAMS 主 要 是 立体 地 展现 来 自 特定 层 的 激活 前 后 、 权 重 和 偏 置 的 
分 布 。 图 3-20 展 示 的 是 激活 之 前 和 激活 之 后 的 数据 分 布 。 
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图 3-20 
3.2.7 EMBEDDINGS 面 板 


EMBEDDINGS 面 板 在 MNIST 这 个 示例 中 无 法 展示 ， 在 3.3 节 中 我 们 会 用 
Word2vec 例 子 来 看 一 下 这 个 面板 的 词 舱 入 投影 仪 。 


3.3 ”可 视 化 的 例子 


WEKA (word embedding) 在 机 器 学 习 中 非常 常见 ， 可 以 应 用 在 自然 语言 
处 理 、 推 荐 系统 等 其 他 程序 中 。 下 面 我 们 就 以 Word2vec 为 例 来 看 看 词 租 入 投影 
仪 的 可 视 化 。 


TensorFlow 的 Word2Vec 有 basic、optimised 这 两 个 版 本 ， 我 们 重点 来 看 这 两 
个 版 本 的 可 视 化 表示 。 


3.3.1 EDAT 
本 节 将 以 GitHub 上 的 一 段 代 码 中 为 例 ， 讲 述 可 视 化 的 思路 。 


Word2vec 采 用 text8 H 作为 文本 的 训练 数据 集 。 这 个 文本 中 只 包含 a~z 字 
符 和 空格 ， 共 27 种 字符 。 我 们 重点 讲述 产生 的 结果 可 视 化 的 样子 以 及 构建 可 视 
化 的 过 程 。 这 里 我 们 采用 的 是 Skip-gram 模 型 ， 即 根据 目标 词汇 预测 上 下 文 。 
也 就 是 说 ， 给 定 n 个 词 围绕 着 词 w ， 用 w 来 预测 一 个 句子 中 其 中 一 个 缺漏 的 词 c 
， 以 概率 p (c |w ) 来 表示 。 最 后 生成 的 用 t-SNE 降 维 呈 现 词 汇 接 近 程度 的 关系 如 
图 3-21 所 示 。 
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图 3-21 


在 word2vec_basic.py 中 ， 从 获得 数据 到 最 终 得 到 可 视 化 的 结果 的 过 程 分 为 
5 步 。 


(1) 下 载 文件 并 读 取 数据 。 主 要 是 read_data 函 数 ， 它 读 取 输 入 的 数据 ， 
输出 一 个 list， 里 面 的 每 一 项 就 是 一 个 词 。 


def read_data(filename): 
with zipfile.ZipFile(filename) as f: 
data = tf.compat.as_str(f.read(f.namelist()[0])).split() 


return data 


这 里 的 data 就 类 似 于 [fawn', ‘homomorphism’, 'nordisk', 'nunnery'] ° 


(2) 建立 一 个 词汇 字典 。 这 上 
的 词 和 这 个 词 的 编码 。 


prod 


BIDE SAL, ey hy 


vocabulary_size = 50000 


def build_dataset(words): 
count = [['UNK', -1]] 
count.extend(collections.Counter(words).most_common(vocabulary_size - 
1)) 
dictionary = dict() 
for word, _ in count: 
dictionary[word] = len(dictionary) 
data = list() 
unk_count = 0 
for word in words: 
if word in dictionary: 
index = dictionary[word] 
else: 
index = © # dictionary['UNK'] 
unk_count += 1 
data.append(index) 
count[0][1] = unk_count 
reverse_dictionary = dict(zip(dictionary.values(), dictionary.keys())) 
return data, count, dictionary, reverse_dictionary 


data, count, dictionary, reverse_dictionary = build_dataset(words) 


dictionary 里 存储 的 就 是 词 与 这 个 词 的 编码 ，reverse_dictionary 是 反 过 来 的 
dictionary， 对 应 的 是 词 的 编码 与 这 个 词 ，data 是 list， 存 储 的 是 词 对 应 的 编码 ， 
也 就 是 第 一 步 中 得 到 的 词 的 list， 转 化 为 词 的 编码 表示 ; count 中 存储 的 是 词汇 
和 词 频 ， 其 中 重复 数量 少 于 49 999 个 词 ， 用 'UNK' 来 代表 稀有 词 。 具 体 示 例如 
下 : 


data [5239, 3084, 12, 6, 195, 2, 3137, 46, 59, 156] 
count [['UNK', 418391], ('the', 1061396), ('of', 593677), ('and', 416629), 
(‘one', 411764), ('in', 372201), ('a', 325873), ('to', 316376), 
('zero', 264975), 
('nine', 250430) ] 


dictionary {'fawn': ©, 'homomorphism': 1, 'nordisk': 2, 'nunnery': 3, 
"chthonic': 

4, 'sowell': 5, 'sonja': 6, 'showa': 7, 'woods': 8, 'hsv': 9} 
reverse_dictionary {0: 'fawn', 1: 'homomorphism', 2: 'nordisk', 3: 
"nunnery', 4: 

"chthonic', 5: 'sowell', 6: 'sonja', 7: 'showa', 8: 
"woods', 9: 'hsv'} 


(3) 产生 一 个 批 次 (batch) 的 训练 数据 。 这 里 定义 generate_batch 画 数 ， 
输入 batch_size、num_skips 和 skip_window， 其 中 batch_size 是 每 个 batch 的 大 

小 ，num_skips 代 表 样 本 的 源 病 要 考虑 几 次 ，skip_windows 代 表 左 右 各 考虑 多 少 
个 词 ， 其 中 skip_windows*2=num_skips。 最 后 返回 的 是 batch 和 1label，batch 的 形 
状 是 [batch_size]，label 的 形状 是 [batch_size, 1]， 也 就 是 用 一 个 中 心 词 来 预测 一 
个 周边 词 。 


举 个 例子 。 假 设 我 们 的 句子 是 “我 在 写 一 首 歌 "， 我 们 将 每 一 个 字 用 
dictionary 中 的 编码 代替 ， 就 变 成 了 [123, 3084, 12, 6, 195, 90]， 假 设 这 里 的 
window_size 是 3， 也 就 是 只 预测 上 文 一 个 词 ， 下 文 一 个 词 ， 假 设 我 们 的 
generate_batch 函 数 从 3084 出 发 ， 源 端 重复 2 次 ， 那 么 batch 束 是 [3084 3084 12 12 
6 6 195 195]，3084 的 上 文 是 123， 下 文 是 12; 12 的 上 文 是 3084， 下 文 是 6; 6 的 
上 文 是 12， 下 文 是 195; 195 的 上 文 是 6， 下 文 是 90。 因 此 ， 对 应 输出 的 label 就 


(4) 构建 和 训练 模型 。 这 里 我 们 构建 一 个 Skip-gram 模 型 ， 具 体 模型 搭建 
可 以 参考 Skip-gram 的 相关 论文 。 执 行 结 果 如 下 : 


Found and verified text8.zip 

Data size 17005207 # 共有 17005207 个 单词 数 

Most common words (+UNK) [['UNK', 418391], ('the', 1061396), ('of', 
593677), 


('and', 416629), ('one', 411764) ] 

Sample data [5239, 3084, 12, 6, 195, 2, 3137, 46, 59, 156] ['anarchism', 
‘originated', 

‘'as', 'a', 'term', 'of', 'abuse', 'first', 'used', "against '] 
3084 originated -> 5239 anarchism 
3084 originated -> 12 as 
12 as -> 3084 originated 
12 as -> 6 a 
6 a -> 195 term 
6 a -> 12 as 
195 term -> 6a 
195 term -> 2 of 
Initialized 
Average loss at step © : 263.743347168 
Nearest to a: following, infantile, professor, airplane, retreat, 
implicated, 
ideological, epstein, 
Nearest to will: apokryphen, intercity, casta, nsc, commissioners, 
conjuring, 
stockholders, bureaucrats, 
Nearest to this: option, analgesia, quelled, maeshowe, comers, inevitably, 
kazan, burglary, 
Nearest to in: embittered, specified, deicide, pontiff, omitted, edifice, 
levitt, cordell, 
Nearest to world: intelligible, unguarded, pretext, cinematic, druidic, 
agm, embarks, 
cingular, 
Nearest to use: hab, tabula, estates, laminated, battle, loyola, arcadia, 
discography, 
Nearest to from: normans, zawahiri, harrowing, fein, rada, incorrect, 
spandau, insolvency, 
Nearest to people: diligent, tum, cour, komondor, lecter, sadly, barnard, 
ebony, 
Nearest to it: fulfilled, referencing, paullus, inhibited, myra, glu, 
perpetuation, 
theologiae, 
Nearest to united: frowned, turkey, profusion, personifications, 
michelangelo, 
sisters, okeh, claypool, 
Nearest to new: infanta, fen, mizrahi, service, monrovia, mosley, 
taxonomy, year, 
Nearest to seven: tilsit, prefect, phyla, varied, reformists, bc, berthe, 
acceptance, 
Nearest to also: pri, navarrese, abandonware, env, plantinga, radiosity, 
oops, manna, 
Nearest to about: lorica, nchen, closing, interpret, smuggler, 
viceroyalty, barsoom, caving, 
Nearest to his: introduction, mania, rotates, switzer, elvis, warped, 
chilli, 
etymological, 
Nearest to and: robson, fun, paused, scent, clouds, insulation, boyfriend, 


agreeable, 

Average loss at step 2000 : 113.878970229 
Average loss at step 4000 : 53.0354625027 
Average loss at step 6000 : 33.5644974816 
Average loss at step 8000 : 23.246792558 
Average loss at step 10000 : 17.7630081813 


(5) 用 t-SNE 降 维 虽 现 。 这 里 我 们 将 上 一 步 训练 的 结果 做 了 一 个 FSNE 降 
维 处 理 ， 最 终 用 Matplotlib 绘 制 出 图 形 ， 图 形 见 图 3-19。 代码 如 下 : 


def plot_with_labels(low_dim_embs, labels, filename='tsne.png'): 
assert low_dim_embs.shape[@0] >= len(labels), "More labels than 
embeddings" 
plt.figure(figsize=(18, 18)) # in inches 
for i, label in enumerate(labels): 
x, y = low_dim_embs[i, :] 
plt.scatter(x, y) 
plt.annotate(label, 
xy=(x, Y), 
xytext=(5, 2), 
textcoords='offset points', 
ha='right', 
va='bottom' ) 


plt.savefig(filename) 


try: 
from sklearn.manifold import TSNE 
import matplotlib.pyplot as plt 


tsne = TSNE(perplexity=30, n_components=2, init='pca', n_iter=5000) 
plot_only = 500 

low_dim_embs = tsne.fit_transform(final_embeddings[:plot_only, :]) 
labels = [reverse_dictionary[i] for i in xrange(plot_only) ] 
plot_with_labels(low_dim_embs, labels) 


except ImportError: 
print("Please install sklearn, matplotlib, and scipy to visualize 
embeddings." ) 


小 知识 


t-SNE 是 流 形 学 习 (manifold Learning) 方法 的 一 种 。 它 假设 数据 是 均匀 采样 于 一 
个 高 维 空间 的 低 维 流 形 ， 流 形 学 习 就 是 找到 高 维 空间 中 的 低 维 流 形 ， 并 求 出 相应 的 般 
入 映射 ， 以 实现 维 数 约 简 或 者 数据 可 视 化 。 流 形 学 习 方法 分 为 线性 的 和 非 线 性 的 两 
种 。 线 性 的 流 形 学 习 方 法 如 主 成 份 分 析 PCA) ， 非 线性 的 流 形 学 习 方 法 如 等 距 特 征 
映射 (Isomap) 、 拉 普 拉 斯 特征 映射 (Laplacian eigenmaps, LE) 、 局 部 线性 藤 入 
(Locally-linear embedding，LLE) 等 。 


3.3.2 PRAM 


463.277 PHATE, 7ETensorBoradh)) Hite P84 —“S EMBEDDINGS [i 

板 ， 用 于 交互 式 可 视 化 和 分 析 高 维 数据 。 对 于 上 面 的 word2vec_basic.py 文 件 ， 

A ee ie 分 析 ， 下 面 我 们 就 来 看 看 TensorBorad 在 词 巾 入 中 的 投 
里 采用 官方 GitHub 开 源 实现 上 的 例子 S 进行 讲解 。 


这 里 我 们 自 定 义 了 两 个 操作 (operator, OP) : SkipgramWord2vec 和 
NegTrainWord2vec。 为 什么 需 ee 1073 
介绍 。 操 作 需 要 先 编译 ， 然 后 执行 。 采用 Mac OS 系统 ， 在 g++ 命令 后 加 
上 -undefined dynamic_lookup 参 数 : 


TF_INC=$(python -c 'import tensorflow as tf; 
print(tf.sysconfig.get_include())') 

g++ -std=c++11 -Shared word2vec_ops.cc word2vec_kernels.cc -0 
word2vec_ops.so -fPIC -I $TF_INC -02 -D_GLIBCXX_USE_CXX11_ABI=0 


在 当前 目录 下 生成 word2vec_ops.so 文 件 ， 然 后 执行 
word2vec_optimized.py， 生 成 的 模型 和 日 志文 件 位 于 /tmp/， 我 们 执行 


tensorboard --logdir=/tmp/ 


访问 http://192.168.0.101:6006/， 得 到 的 EMBEDDINGS 面 板 如 图 3-22 所 示 。 
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图 3-22 


在 EMBEDDINGS 面 板 左 侧 的 工具 栏 中 ， 可 以 选择 降 维 的 方式 ， 有 工 
SNE、PCA 和 CUSTOM 的 降 维 方式 ， 并 且 可 以 做 二 维 / 三 维 的 图 像 切 换 。 例 
如 ， 切 换 到 tr-SNE 降 维 工具 ， 可 以 手动 调整 Dimension (困惑 度 ) ` Learning 
rate (学 习 率 ) 等 参数 ， 最 终生 成 10 000 个 点 的 分 布 ， 如 图 3-23 所 示 。 
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图 3-23 


在 EMBEDDINGS 面 板 的 右 侧 ， 可 以 采用 正则 表达 式 匹 配 出 某 些 词 ， 直 观 
地 看 到 词 之 间 的 余弦 距离 或 欧式 距离 的 关系 ， 如 图 3-24 所 示 。 
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图 3-24 


任意 选择 一 个 点 ， 如 8129， 选 择 “isolate 101 points” 按 钮 ， 将 会 展示 出 100 
个 在 空间 上 最 接近 被 选择 点 的 词 ， 也 可 以 调整 展示 的 词 的 数量 ， 如 图 3-25 所 
示 。 
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3.4 小结 


可 视 化 是 人 研究 深度 学 习 的 一 个 重要 方向 ， 有 利于 我 们 直观 地 探 完 训练 过 程 
中 的 每 一 步 发 生 的 变化 。TensorFlow 提 供 了 强大 的 工具 TensorBoard， 不 仅 有 完 
善 的 API 接 口 ， 而 且 提 供 的 面板 也 非常 丰富 。 在 4.3.2 节 我 们 会 讲解 实现 
TensorBoard 的 API 。 在 第 17 章 我 们 还 会 讲 到 TensorFlow 的 调试 工具 ， 调 试 和 可 
视 化 配合 起 来 ， 有 利于 精准 地 调整 模型 。 


[1] http://playground.tensorflow.org/ 


[2] 本 市 内 容 参考 
https://github.com/tensorflow/tensorflow/blob/master/tensorflow/tensorboard/READ 
ME.md ° 


[3] 
https://github.com/tensorflow/tensorflow/blob/master/tensorflow/examples/tutorials/ 


word2vec/ word2vec_basic.py 
[4]  http://mattmahoney.net/dc/textdata 


[5] 
https://github.com/tensorflow/models/blob/master/tutorials/embedding/word2vec_op 


timized.py 


第 4 章 ”TensorFlow 基 础 知识 


本 章 主要 参考 TensorFlow 官 方 网 站 上 的 新 手 入 门 CO 和 扩展 教程 站 ， 讲 解 
TensorFlow 的 基本 概念 。 本 章 从 系统 架构 、 设 计 理 念 、 编 程 模型 、 常 用 API、 
存储 与 加 载 模型 、 线 程 及 队列 、 加 载 数据 、 目 定义 操作 等 多 个 方面 进行 讲解 ， 
相信 通过 本 章 的 学 习 ， 读 者 会 对 TensorFlow 的 全 貌 有 一 个 基本 的 认识 。 本 章 的 
学 习 对 理解 TensorFlow 的 原理 和 实战 非常 重要 ， 读 者 需要 用 心 揣摩 。 


4.1 系统 架构 


图 4-1 给 出 的 是 TensorFlow 的 系统 架构 ， 自 奔 向 上 分 为 设备 层 和 网 络 层 、 数 
据 操 作 层 、 图 计算 层 、API 层 、 应 用 层 ， 其 中 设备 层 和 网 络 层 、 数 据 操作 层 、 
图 计算 层 是 TensorFlow 的 核心 层 。D] 


下 面 就 自 底 向 上 详细 介绍 一 下 TensorFlow 的 系统 架构 。 最 下 层 是 网 络 通信 
层 和 设备 管理 层 。 网 络 通信 层 包 括 gRPC (google Remote Procedure Call 
Protocol) 和 远程 直接 数据 存 取 (Remote Direct Memory Access, RDMA) , 3X 
都 是 在 分 布 式 计算 时 需要 用 到 的 。 设 备 管理 层 包 括 TensorFlow 分 别 在 CPU、 
GPU、FPGA 等 设备 上 的 实现 ， 也 束 是 对 上 层 提 供 了 一 个 统一 的 接口 ， 使 上 层 
只 需要 处 理 卷 积 等 逻辑 ， 而 不 需要 关心 在 硬件 上 的 卷 积 的 实现 过 程 。 


其 上 是 数据 操作 层 ， 主 要 包括 卷 积 函数 、 激 活 画 数 等 操作 (参见 4.7 
节 ) 。 再 往 上 是 图 计算 层 ， 也 是 我 们 要 了 解 的 核心 ， 包 含 本 地 计算 图 和 分 布 式 
计算 图 的 实现 (本 章 会 做 基础 知识 的 梳理 ， 包 括 图 的 创建 、 编 译 、 优 化 和 执 
行 ， 本 书 的 “实战 篇 * 会 介绍 图 的 具体 应 用 ， 第 15 章 会 介绍 分 布 式 计算 图 的 实 
Hl) 。 再 往 上 是 API 层 和 应 用 层 〈4.4 节 和 4.7 节 会 介绍 重点 常用 的 API 的 Python 


实现 以 及 一 些 其 他 语言 的 实现 ， 本 书 的 “实战 篇 ”会 重点 
学 习 各 种 网 络 模型 的 实现 ) 。 


训练 相关 类 库 预测 相关 类 库 


应 用 层 


Si 
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TensorFlow 核心 API 
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图 4-1 


4.2 ”设计 理念 


TensorFlow 的 设计 理念 主要 体现 在 以 下 两 个 方面 。 


(1) 将 图 的 定义 和 图 的 运行 完全 分 开 。 因 此 ，TensorFlow 被 认为 是 一 
A ast eae EE S 


我 们 知道 ， 编 程 模式 通常 分 为 命令 式 编 程 (imperative style 
programming) 和 符号 式 编程 (symbolic style programming) 。 命令 式 编 程 就 
是 编写 我 们 理解 的 通常 意义 上 的 程序 ， 很 容易 理解 和 调试 ， 按 照 原 有 风 辑 执 
行 。 符 号 式 编 程 涉及 很 多 的 嵌入 和 优化 ， 不 容易 理解 和 调试 ， 但 运行 速度 相对 
有 所 提升 。 现 有 的 深度 学 习 框 架 中 ，Torch 是 典型 的 命令 式 的 ，Caffe、MXNet 
采用 了 两 种 编程 模式 混合 的 方法 ， 而 TensorFlow 完 全 采用 符号 式 编程 。 


符号 式 计算 一 般 是 先 定义 各 种 变量 ， 然 后 建立 一 个 数据 流 图 ， 在 数据 流 图 
中 规定 各 个 变量 之 间 的 计算 关系 ， 最 后 需要 对 数据 流 图 进行 编译 ， 但 此 时 的 数 
据 流 图 还 是 一 个 空 膏 儿 ， 里 面 没有 任何 实际 数据 ， 只 有 把 需要 运算 的 输入 放 进 
去 后 ， 才 能 在 整个 模型 中 形成 数据 流 ， 从 而 形成 输出 值 。 负 


例如 : 
t=8+9 
print(t) 


在 传统 的 程序 操作 中 ， 定 义 了 t 的 运算 ， 在 运行 时 就 执行 了 ， 并 输出 17 © 
而 在 TensorFlow 中 ， 数 据 流 图 中 的 站点， 实际 上 对 应 的 是 TensorFlow API 中 的 
一 个 操作 ， 并 没有 真正 去 运行 : 


import tensorflow as tf 
t = tf.add(8, 9) 
print(t) # 输出 Tensor("Add_1:0", shape=(), dtype=int32) 


定义 了 一 个 操作 ， 但 实际 上 并 没有 运行 。 


(2) TensorFlow 中 涉及 的 运算 都 要 放 在 图 中 ， 而 图 的 运行 只 发 生 在 会 话 

) 中 。 开 启 会 话 后 ， 就 可 以 用 数据 去 填充 方 点 ， 进 行 运算 ， 关 闭会 话 

后 ， 就 不 能 进行 计算 了 。 因 此 ， 会 话 提供 了 操作 运行 和 Tensor 求 值 的 环境 。 例 
如 : 


(session 


import tensorflow as tf 


创建 图 
= tf.constant([1.0, 2.0]) 

tf.constant([3.0, 4.0]) 
a*b 


oO 避风 # 


# 创建 会 话 
sess = tf.Session() 


# 计算 c 
print sess.run(c) # 进行 矩阵 乘法 ， 输 出 [3.，8.] 
sess.close() 


了 解 了 设计 理念 ， 接 下 来 看 一 下 TensorFlow 的 编程 模型 。 


4.3 ”编程 模型 5 


TensorFlow 是 用 数据 流 图 做 计算 的 ， 因 此 我 们 先 创建 一 个 数据 流 图 (也 称 
为 网 络 结构 图 ) ， 如 图 4-2 所 示 ， 看 一 下 数据 流 图 中 的 各 个 要 素 。 


图 4-2 讲 述 了 TensorFlow 的 运行 原理 。 图 中 包含 输入 (input) ` WÉ 
(reshape) 、Relu 层 (Relulayer) 、Logit 层 (Logit layer) ` Softmax ` 20 X XA 
(cross entropy) 、 梯 度 (gradient) 、SGD 训 练 (SGD Trainer) 等 部 分 ， 是 一 

个 简单 的 回归 模型 。 


它 的 计算 过 程 是 ， 首 先 从 输入 开始 ， 经 过 塑 形 后 ， 一 层 一 层 进 行 前 问 传 播 

运算 。Relu 层 Cie) 里 会 有 两 个 参数 ， 即 Whl 和 bY， ， 在 输出 前 使 用 ReLu 
(Rectified Linear Units) 激活 函数 做 非 线 性 处 理 。 然 后 进入 Logit 层 (输出 

E) ， 学 习 两 个 参数 W 和 b。“。 用 Softmax 来 计算 和 输出 结果 中 各 个 类 别 的 概 
率 分 布 。 用 交叉 业 来 度量 两 个 概率 分 布 〈 源 样本 的 概率 分 布 和 输出 结果 的 概率 
分 布 ) 之 间 的 相似 性 。 然 后 开始 计算 梯度 ， 这 里 是 需要 参数 Wp > Da Wem 
Mib ,。， 以 及 交叉 灶 后 的 结果。 随后 进入 SGD 训 练 ， 也 惑 是 反 回 传播 的 过 程 ， 
从 上 往 下 计算 每 一 层 的 参数 ， 依 次 进行 更 新 。 也 就 是 说 ， 计 算 和 更 新 的 顺序 为 
by “Wm “bmn 和 Wr ° 


aD Gy Ea E 
Ses 


learning_rate=[0.01] 


classes=[10] 


shape=[784, 1] 


图 4-2 [6] 


顾名思义 ，TensorFlow 是 指 “ 张 量 的 流动 "*。 TensorFlow 的 数据 流 图 是 由 节 
点 (node) 和 边 (edge) 组 成 的 有 向 无 环 图 (directed acycline graph, 
DAG) 。TensorFlow 由 Tensor 和 Flow 两 部 分 组 成 ，Tensor ( 张 量 ) 代表 了 数据 
流 图 中 的 边 ， 而 Flow (流动 ) 这 个 动作 就 代表 了 数据 流 图 中 节点 所 做 的 操作 。 


4.3.1 边 


TensorFlow 的 边 有 两 种 连接 关系 : 数据 依赖 和 控制 依赖 M o HP, SCE 
边 表示 数据 依赖 ， 代 表 数 据 ， 即 张 量 。 任 意 维 度 的 数据 统称 为 张 量 。 在 机 器 学 
习 算 法 中 ， 张 量 在 数据 流 图 中 从 前 往 后 流动 一 遍 就 完成 了 一 次 前 向 传播 
(forword propagation) ， 而 残 差 8) 从 后 向 前 流动 一 遍 就 完成 了 一 次 反 向 传播 
(backword propagation) ° 


4 


还 有 一 种 特殊 边 ， 一 般 画 为 虚线 边 ， 称 为 控制 依赖 (control 
dependency) ， 可 以 用 于 控制 操作 的 运行 ， 这 被 用 来 确保 happens-before 关 系 ， 
这 类 边 上 没有 数据 流 过 ， 但 源 节 点 必须 在 目的 节点 开始 执行 前 完成 执行 。 常 用 
代码 如 下 : 


tf.Graph.control_dependencies(control_inputs) 


TensorFlow 支 持 的 张 量 具有 表 4-1 所 示 的 数据 属性 。 


表 4-1 


DT_INT32 tf.int32 32 位 有 各 
DT_INT16 tf.int16 16 位 有 各 


数据 类 型 Python 类 型 


tf.int8 


DT_STRING tf.string 可 变 长 度 的 字 节 数组 ， 每 一 个 张 量 元 素 都 是 一 个 字 节 数组 


a ans KAES 
| 
| 


有 天 图 及 张 量 的 实现 的 源 代 码 均 位 于 tensorflow- 
1.1.0/tensorflow/python/framework/ops.py， 后 面 会 详细 讲 。 


43.2 ”节点 


图 中 的 节点 又 称 为 算 子 ， 它 代表 一 个 操作 (operation, OP) ， 一 般 用 来 
表示 施加 的 数学 运算 ， 也 可 以 表示 数据 输入 (feed in) 的 起 点 以 及 输出 
(push out) 的 终点 ， 或 者 是 读 取 / 写 入 持久 变量 (persistent variable) 的 终 


点 。 表 4-2 列 举 了 一 些 TensorFlow 实 现 的 算 于 。 算 子 文 持 表 4-1 所 示 的 张 量 的 各 


种 数据 属性 ， 并 且 需 要 在 建立 图 的 时 候 确 定 下 来 。 


类 别 


表 4-2 [10] 


示例 


数学 运算 操作 


BREE 


PERIZ 


Add ` Subtract ` Multiply ` Div ` 


Concat ` Slice ` Split ` Constant ` 


控制 张 量 流动 的 操作 | Merge ` Switch ` Enter ` Leave ` NextIteration 


与 操作 相关 的 代码 位 于 tensorflow-1.1.0/tensorflow/python/ops/ 目 录 下 。 以 
数学 运算 为 例 ， 代 码 为 上 述 目 了 永 下 的 math_ops.py， 里 面 定义 了 add、subtract、 


multiply ` scalar_mul ` div ` divide 、truediv、floordiv 等 数学 运算 ， 每 个 函数 里 


面 调 用 了 gen_math_ops.py 中 的 方法 ， 这 个 文件 是 在 编译 (安装 时 ) TensorFlow 
时 生成 的 ， 位 于 Python 库 site-packages/tensorflow/python/ops/gen_math_ops.py 


中 ， 随 后 又 调用 了 tensorflow-1.1.0/tensorflow/core/kernels/ 下 面 的 核 函 数 实现 。 


再 例如 ， 数 据 运算 的 代码 位 于 tensorflow- 
1.1.0/tensorflow/python/ops/array_ops.py 中 ， 里 面 定 义 了 concat、 split ` slice ` 
size、rank 等 运算 ， 每 个 函数 都 调用 了 gen_array_ops.py 中 的 方法 ， 这 个 文件 也 
是 在 编译 TensorFlow 时 生成 的 ， 位 于 Python 库 site- 


packages/tensorflow/python/ops/gen_array_ops.py 中 ， 随 后 又 调用 了 tensorflow- 
1.1.0/tensorflow/core/kernels/ 下 面 的 核 函数 实现 。 


43.3 ”其 他 概念 


除了 边 和 节点 ，TensorFlow 还 涉及 其 他 一 些 概 念 ， 如 图 、 会 话 、 设 备 、 变 
量 、 内 核 等。 下 面 束 分 别 介 绍 一 下 。 


1. 图 


把 操作 任务 描述 成 有 向 无 环 图 。 那 么 ， 如 何 构 建 一 个 图 呢 ? 构建 图 的 第 一 
步 是 创建 各 个 和 节点。 具体 如 下 : 


import tensorflow as tf 


# 创建 一 个 常量 运算 操作 ， 产 生 一 个 1x2 矩阵 
matrixi = tf.constant([[3., 3.]]) 


# 创建 另外 一 个 常量 运算 操作 ， 产 生 一 个 2x1 和 矩阵 
matrix2 = tf.constant([[2.],[2.]]) 


# 创建 一 个 矩阵 乘法 运算 ， 把 matrix1 和 matrix2 作 为 输入 
# 返回 值 product 代 表 矩 阵 乘法 的 结果 


product = tf.matmul(matrix1, matrix2) 


启动 图 的 第 一 步 是 创建 一 个 Session 对 象 。 会 话 (session) 提供 在 图 中 执行 
操作 的 一 些 方法 。 g 建立 会 话 ， 此 时 会 生成 一 张 空 图 ， 在 会 话 中 
添加 节点 和 边 ， 形 成 一 张 图 ， 然 后 执行 。 


要 创建 一 张 图 并 运行 操作 的 类 ， 在 Python 的 API 中 使 用 tt.Session， 在 C++ 
的 API 中 使 用 tensorflow::Session。 示 例如 下 : 


with tf.Session() as sess: 
result = sess.run([product] ) 
print result 


££. Vil FA Session RAVrunQ ERATI, feA—#ETensor, ix Sit REY 
填充 (feed) ; 返回 的 结果 类 型 根据 输入 的 类 型 而 定 ， 这 个 过 程 叫 取 回 
(fetch) ° 


与 会 话 相 关 的 源 代码 位 于 tensorflow- 


1.1.0/tensorflow/python/client/session.py ° 


会 话 是 图 交互 的 一 个 桥梁 ， 一 个 会 话 可 以 有 多 个 图 ， 会 话 可 以 修改 图 的 结 
构 ， 也 可 以 往 图 中 注入 数据 进行 计算 。 因 此 ， 会 话 主要 有 两 个 API 接 口 : 
Extend 和 Run。Extend 操 作 是 在 Graph 中 添加 点 和 边 ，Run 探 作 是 输入 计算 的 
节点 和 填充 必要 的 数据 后 ， 进 行 运算 ， 并 输出 运算 结果 。 


3. 设备 


设备 (device) 是 指 一 块 可 以 用 来 运算 并 且 拥 有 自己 的 地 址 空间 的 硬件 ， 
如 GPU 和 CPU。TensorFlow 为 了 实现 分 布 式 执行 操作 ， 充 分 利用 计算 资源 ， 可 
以 明确 指定 操作 在 哪个 设备 上 执行 。 具 体 如 下 : 


with tf.Session() as sess: 
# 指定 在 第 二 个 gpu 上 运行 
with tf.device("/gpu:1"): 
matrixi = tf.constant([[3., 3.]]) 
matrix2 = tf.constant([[2.],[2.]]) 
product = tf.matmul(matrix1, matrix2) 


与 设备 相关 的 源 代码 位 于 tensorflow- 


1.1.0/tensorflow/python/framework/device.py ° 
4. 变量 


变量 (variable) 是 一 种 特殊 的 数据 ， 它 在 图 中 有 固定 的 位 置 ， 不 像 普通 
张 量 那样 可 以 流动 。 例 如 ， 创 建 一 个 变量 张 量 ， 使 用 tt.Variable0 构 造 函 数 ， 这 
个 构造 函数 需要 一 个 初始 值 ， 初 始 值 的 形状 和 类 型 决定 了 这 个 变量 的 形状 和 类 


# 创建 一 个 变量 ， 初 始 化 为 标量 9 


state = tf.Variable(0, name="counter") 


创建 一 个 常量 张 量 : 


input1 = tf.constant(3.0) 


TensorFlow 还 提供 了 填充 机 制 ， 可 以 在 构建 图 时 使 用 tf.placeholder() 临 时 
替代 任意 操作 的 张 量 ， 在 调用 Session 对 象 的 run0) 方 法 去 执行 图 时 ， 使 用 填充 数 
据 作 为 调用 的 参数 ， 调 用 结束 后 ， 填 元 数据 就 消失 。 代 码 示例 如 下 : 


input1 = tf.placeholder(tf.float32) 
input2 = tf.placeholder(tf.float32) 
output = tf.multiply(input1，input2) 
with tf.Session() as sess: 
print sess.run([output], feed_dict={input1:[7.], input2:[2.]}) 
# 输出 [array([ 14.], dtype=float32) ] 


与 变量 相关 的 源 代 码 位 于 tensorflow/tensorflow/python/ops/variables.py。 


5. 内 核 


我 们 知道 操作 (operation) 是 对 抽象 操作 (如 matmul 或 者 add) 的 一 个 统 
称 ， 而 内 核 (kernel) 则 是 能 够 运行 在 特定 设备 (如 CPU、GPU) 上 的 一 种 对 
操作 的 实现 。 因 此 ， 同 一 个 操作 可 能 会 对 应 多 个 内 核 。 


当 自 定义 一 个 操作 时 ， 需 要 把 新 操作 和 内 核 通过 注册 的 方式 添加 到 系统 
中 。4.10 市 会 用 一 个 示例 来 讲解 如 何 自 定义 一 个 操作 。 


4.4 ”常用 API 


了 人 解 TensorFlow 的 API 有 助 于 在 应 用 时 得 心 应 手 。 下 面 介 绍 的 是 常用 APT1， 
在 后 面 的 示例 中 基本 上 都 会 用 到 。 这 里 主要 介绍 基于 Python 的 API， 基 于 其 他 
语言 的 API 也 大 同 小 异 ， 最 重要 的 是 理解 API 的 功能 及 其 背后 的 原理 。 HH 


4.4.1 图 、 操 作 和 张 量 


TensorFlow 的 计算 表现 为 数据 流 图 ， 所 以 tf.Graph 类 中 包含 一 系列 表示 计算 
的 操作 对 象 (tf.Operation) ， 以 及 在 操作 之 间 流 动 的 数据 一 一 张 量 对 象 
(tf.Tensor) 。 与 图 相关 的 API 均 位 于 tf.Graph 类 中 ， 参 见 表 4-3。 


tf.Graph.init () 


将 某 图 设置 为 默认 图 ， 并 返回 一 个 上 下 文 管理 器 
如 果 不 显 式 添加 一 个 默认 图 ， 系 统 会 自动 设置 

全 局 的 默认 图 。 所 设置 的 默认 图 ， 在 模块 范围 
义 的 节点 都 将 默认 加 入 默认 图 


tf.Graph.as_default() 


tf.Graph.device(device_name_or_function) 


tf.Graph.name_scope(name) 


tf.Operation 类 代表 图 中 的 一 个 节点 ， 用 于 计算 张 量 数据 。 该 类 型 由 市 点 构 
造 器 (如 tf.matmul0 或 者 Graph.create_op()) 产生 。 例 如 ，c = tf.matmul(a,b) 创 
建 一 个 Operation 类 ， 其 类 型 为 MatMul 的 操作 类 。 与 操作 相关 的 API 均 位 了 
tf.Operation 类 中 ， 参 见 表 4-4。 


Th 


表 4-4 


tf.Operation.type 操作 的 类 型 ， 如 MatMul 
tf.Operation.inputstf.Operation.outputs 操作 的 输入 与 输出 


tf.Operation.control_inputs 操作 的 依赖 
As 


aR 
tf.Operation.run(feed_dict=None, session=None) 在 会 话 中 运行 该 操作 


tf.Operation.get_attr(name) 获取 操作 的 属性 值 


tf.Tensor 类 是 操作 输出 的 符号 句柄 ， 它 不 包含 操作 输出 的 值 ， 而 是 提供 了 
一 种 在 tf.Session 中 计算 这 些 值 的 方法 。 这 样 就 可 以 在 操作 之 间 构 建 一 个 数据 流 
连接 ， 使 TensorFlow 能 够 执行 一 个 表示 大 量 多 步 计算 的 图 形 。 与 张 量 相关 的 
API 均 位 于 tf.Tensor 类 中 ， 参 见 表 4-5。 


长 量 在 操作 输出 中 的 索引 


tf.Tensor.graph 张 量 所 在 的 医 


tf.Tensor.op 产生 该 张 量 的 操作 


该 张 量 的 操作 列表 


tf.Tensor.eval(feed_dict=None, 在 会 话 中 求 张 量 的 值 ， 需 要 使 用 sess.as_default0 或 者 


session=None) eval(session=sess) 


tf. Tensor.get_shape() j 于 表示 张 量 的 形状 (EE) 的 类 TensorShape 


tf. Tensor.set_shape(shape) 新 张 量 的 形 ; 


tf.Tensor.device 设置 计算 该 张 量 的 设备 


4.4.2 ”可 视 化 
在 第 3 章 中 ， 我 们 讲解 了 可 视 化 面板 的 功能 ， 但 如 何 编写 可 视 化 的 程序 


已 ?可视化 时 ， 需 要 在 程序 中 给 必要 的 贡 ， 


点 添加 摘要 (summary) ， 摘 要 会 收 


集 该 节点 的 数据 ， 并 标记 上 第 几 步 、 时 间 惟 等 标识 ， 写 入 事件 文件 (event 
file) 中 。tf.summary.FileWriter 类 用 了 


程 。 


在 目录 中 创建 事件 文件 ， 并 且 向 文件 中 


添加 摘要 和 事件 ， 用 来 在 TensorBoard 中 展示 。9.3 节 将 详细 讲解 可 视 化 的 过 
表 4-6 给 出 了 可 视 化 和 常用 的 API 控 作 。 
表 4-6 
API 描述 


tf.summary.FileWriter.init (logdir, graph=None, 创建 


max_queue= 10, flush_secs=120, graph_def= 


tf.summary.FileWriter.add_summary(summary, 


global_step=None) 


None) 


logdir 中 创建 一 个 新 昌 


FileWriter 和 事件 


将 摘要 添加 到 事件 文件 


tf.summary.FileWriter.add_event(event) 


tf.summary.FileWriter.add_graph(graph, 
global_step=None, graph_def=None) 


tf.summary.FileWriter.get_logdir() 


E 


E 


=] 


Er 


获取 


事件 文件 中 添加 


事件 文件 中 添加 一 


事件 文件 的 路 径 


个 事件 


4B 


tf.summary.FileWriter.flushQ 


将 所 有 事件 都 写 入 磁盘 


tf.summary.FileWriter.close() 将 事 


件 写 入 磁盘 ， 


关闭 文人 


操作 符 


tf.summary.scalar(name, tensor, collections=None) 偷 出 包含 单个 标量 值 的 摘要 


tf.summary.histogram(name, values, collections=None) A = 图 的 摘要 


tf.summary.audio(name, tensor, sample_rate, 


俞 出 包含 音频 的 摘要 


max_outputs=3, collections=None) 


tf.summary.image(name, tensor, max_outputs=3, 


图片 的 摘要 


collections= None) 


tf.summary.merge(inputs, collections=None, name=None) ， 包 含 所 有 输入 摘要 的 值 


4.5 变量 作用 域 


在 TensorFlow 中 有 两 个 作用 域 (scope) ， 一 个 是 name_scope， 另 一 个 是 
variable_scope。 它 们 究竟 有 什么 区 别 呢 ? 简 而 言 之 ，name_scope 主 要 是 给 
ee 也 可 以 给 op_name 加 前 级 ;name_scope 是 给 op_name 加 


。 下 面 我 们 束 来 分 别 介绍 。 


4.5.1 ”variable_scope 示 例 


variable_scope 变 量 作 用 域 机 制 在 TensorFlow 中 主要 由 两 部 分 组 成 : 


v = tf.get_variable(name, shape, dtype, initializer) # 通过 所 给 的 名 字 创 建 或 是 


返回 一 个 变量 
tf.variable_scope(<scope_name>) # 为 变量 指定 命名 空间 


“4tf.get_variable_scope().reuse == False 时 ，variable_scope 作 用 域 只 能 用 来 
创建 新 变量 


with tf.variable_scope("foo"): 
v = tf.get_variable("v", [1]) 
v2 = tf.get_variable("v", [1]) 
assert v.name == "foo/v:0" 


上 上 述 程序 会 抛 出 ValueError 错 误 ， 因 为 v 这 个 变量 已 经 被 定义 过 了 ,但 
tf.get_variable_scope().reuse 默 认为 False， 所 以 不 能 重用 。 


当 tf.get_variable_scope().reuse == True 时 ， 作 用 域 可 以 共享 变量 : 


with tf.variable_scope("foo") as scope: 
v = tf.get_variable("v", [1]) 
with tf.variable_scope("foo", reuse=True): 
# 也 可 以 写成 : 
#scope.reuse_variables() 
vi = tf.get_variable("v", [1]) 
assert vi == v 


1. 获取 变量 作用 域 


可 以 直接 通过 tf.variable_scope0) 来 获取 变量 作用 域 : 


with tf.variable_scope("foo") as foo_scope: 
v = tf.get_variable("v", [1]) 

with tf.variable_scope(foo_scope) 
w = tf.get_variable("w", [1]) 


如 琳 在 开局 的 一 个 变量 作用 域 里 使 用 之 前 预 完 定 义 的 一 个 作用 域 ， 则 会 跳 
过 当前 变量 的 作用 域 ， 保 持 预 完 存在 的 作用 域 不 变 。 


with tf.variable_scope("foo") as foo_scope: 
assert foo_scope.name == "foo" 

with tf.variable_scope("bar") 
with tf.variable_scope("baz") as other_scope: 


assert other_scope.name == "bar/baz" 
with tf.variable_scope(foo_scope) as foo_scope2: 
assert foo_scope2.name == "foo" # 保持 不 变 


2. 变量 作用 域 的 初始 化 


变量 作用 域 可 以 默认 携 市 一 个 初始 化 夯 ， 在 这 个 作用 域 中 的 子 作 用 域 或 变 
量 都 可 以 继承 或 者 重 写 父 作用 域 初始 化 紫 中 的 值 。 方 法 如 下 : 


with tf.variable_scope("foo", initializer=tf.constant_initializer(0.4)): 
v = tf.get_variable("v", [1]) 
assert v.eval() == 0.4 # 被 作用 域 初 始 化 
w = tf.get_variable("w", [1], 
initializer=tf.constant_initializer(0.3)): 
assert w.eval() == 0.3 #4 重 写 初 始 化 器 的 值 
with tf.variable_scope("bar"): 
v = tf.get_variable("v", [1]) 
assert v.eval() == 0.4 # 继承 默认 的 初始 化 器 
with tf.variable_scope("baz", 
initializer=tf.constant_initializer(0.2)): 
v = tf.get_variable("v", [1]) 
assert v.eval() == 0.2 # 重 写 父 作用 域 的 初始 化 器 的 值 


上 面 讲 的 是 variable_name， 那 对 于 op_name 呢 ?在 variable_scope 作 用 域 下 
的 控 作 ， 也 会 被 加 上 前 级 : 


with tf.variable_scope("foo"): 
xX = 1.0 + tf.get_variable("v", [1]) 


assert x.op.name == "foo/add" 


variable_scope 主 要 用 在 循环 神经 网 络 (RNN) 的 操作 中 ， 其 中 需要 大 量 的 


= ahr EE. 
变量 。 


4.5.2 name_scope 示 例 


TensorFlow 中 常常 会 有 数 以 千 计 的 节点 ， 在 可 视 化 的 过 程 中 很 难 一 下 子 展 
示 出 来 ， 因 此 用 name_scope 为 变量 划分 范围 ， 在 可 视 化 中 ， 这 表示 在 计算 图 中 


的 一 个 层级 。name_scope 会 影响 op_name， 不 会 影响 用 get_variableO) 创 建 的 变 
量 ， 而 会 影响 通过 Variable() 创 建 的 变量 。 因 此 .: 


with tf.variable_scope("foo"): 
with tf.name_scope("bar"): 

V tf.get_variable("v", [1]) 
b tf.Variable(tf.zeros([1]), name='b') 
X 1.0 +v 

assert v.name == "foo/v:0" 

assert b.name == "foo/bar/b:0" 

assert x.op.name == "foo/bar/add" 


可 以 看 出 ，tf.name_scope0) 返 回 的 是 一 个 字符 串 ， 如 上 壕 的 "bar"。 
name_scope 对 用 get_variable() 创 建 的 变量 的 名 字 不 会 有 任何 影响 ， 而 Variable() 
创建 的 操作 会 被 加 上 前 绥 ， 并 且 会 给 操作 加 上 名字 前 缀 。 


4.6 ” 批 标准 化 


批 标准 化 (batch normalization, BN) 是 为 了 克服 神经 网 络 层 数 加 深 导致 
难以 训练 而 诞生 的 。 我 们 知道 ， 深 度 神 经 网 络 随 着 网 络 深度 加 深 ， 训 练 起 来 会 
越 来 越 困 难 ， 收 敛 速度 会 很 慢 ， 常 常会 导致 梯度 弥散 问题 (vanishing gradient 
problem) 。 


— 


统计 机 器 学 习 中 有 一 个 ICS (Internal Covariate Shift) 理论 ， 这 是 一 个 经 典 
假设 : 源 域 (source domain) 和 目标 域 (target domain) 的 数据 分 布 是 一 臻 
的 。 世 就 是 说 ， 训 练 数据 和 测试 数据 是 满足 相同 分 布 的 。 这 是 通过 训练 数据 获 
得 的 模型 能 够 在 测试 集 获得 好 的 效果 的 一 个 基本 保障 。 


Covariate Shift 是 指 训练 集 的 样本 数据 和 目标 样本 集 分 布 不 一 臻 时， 训练 得 
到 的 模型 无 法 很 好 地 泛 化 (generalization) 。 它 是 分 布 不 一 致 假设 之 下 的 一 个 
分 支 问题 ， 也 就 是 指 源 域 和 目标 域 的 条 件 概 率 是 一 致 的 ， 但 是 其 边缘 概率 不 
同 。 的 确 ， 对 于 神经 网 络 的 各 层 输出 ， 在 经 过 了 层 内 操作 后 ， 各 层 输出 分 布 就 


会 与 对 应 的 输入 信和 号 分 布 不 同 ， 而 且 差异 会 随 着 网 络 深度 增 大 而 加 大 ， 但 是 每 
一 层 所 指向 的 样本 标记 (label) 仍然 是 不 变 的 。 


解决 思路 一 般 是 根据 训练 样本 和 目标 样本 的 比例 对 训练 样本 做 一 个 矫正 。 
因此 ， 通 过 引入 批 标准 化 来 规范 化 A 某 些 层 或 者 所 有 层 的 输入 ， 从 而 固定 每 
层 输 入 信和 号 的 均值 与 方差 。 


4.6.1 方法 


批 标准 化 一 般 用 在 非 线性 映射 激活 函数 ) 之 前 ， 对 x =Wu +b 做 规范 化 ， 
使 结果 (输出 信号 各 个 维度 ) 的 均值 为 0， 方 差 为 1。 让 每 一 层 的 输入 有 一 个 稳 
定 的 分 布 会 有 利于 网 络 的 训练 。 


4.6.2 ”优点 


批 标准 化 通过 规范 化 让 激活 函数 分 布 在 线性 区 间 ， 结 采 就 是 加 大 了 梯度 ， 
让 模型 更 加 大 胆 地 进行 梯度 下 降 ， 于 是 有 如 下 优 扩 : 


。 加 大 探索 的 步 长 ， 加 快 收敛 的 速度 ; 
。 更 容易 跳出 局 部 最 小 值 ; 
。 破坏 原来 的 数据 分 布 ， 一 定 程度 上 缓解 过 拟 合 。 


因此 ， 在 遇 到 神经 网 络 收敛 速度 很 慢 或 梯度 爆炸 [13] (gradient explode) 
等 无 法 训练 的 情况 下 ， 都 可 以 尝试 用 批 标准 化 来 解决 。 


4.6.3 示例 


我 们 对 每 层 的 Wx_plus_b 进 行 批 标准 化 ， 这 个 步骤 放 在 激活 画 数 之 前 : 


# 计算 Wx_plus_b 的 均值 和 方差 ， 其 中 axes=[0] 表 示 想 要 标准 化 的 维度 

fc_mean, fc_var = tf.nn.moments(Wx_plus_b, axes=[0], ) 

scale = tf.Variable(tf.ones([out_size])) 

shift = tf.Variable(tf.zeros([out_size])) 

epsilon = 0.001 

wx_plus_b = tf.nn.batch_normalization(Wx_plus_b, fc_mean, fc_var, shift, 


scale, epsilon) 


# 也 就 是 在 做 : 
# Wx_plus_b = (Wx_plus_b - fc_mean) / tf.sqrt(fc_var + 0.001) 
# Wx_plus_b = Wx_plus_b * scale + shift 


更 多 关于 批 标 准 化 的 理论 可 以 查看 Sergey Ioffe 和 Christian Szegedy 的 论文 
《Batch Normalization: Accelerating Deep Network Training by Reducing Internal 
Covariate Shift) H4 o 


4.7 ”神经 元 函数 及 优化 方法 


本 主要 介绍 TensorFlow 中 构建 神经 网 络 所 需 的 神经 元 函数 ， 包 括 各 种 激 
活 函 数 、 卷 积 图 数 、 池 化 函数 、 损 失 画 数 、 优 化 右 等 。 读 者 阅读 时 ， 务 必 把 本 
下 介绍 的 稼 用 API 记 熟 ， 这 有 利于 在 “实战 篇 ” 轻 轻 松 松 地 构建 神经 网 络 进行 训 


4.7.1 激活 函数 


BUBBA (activation function) 运行 时 激活 神经 网 络 中 某 一 部 分 神经 元 ， 
将 激活 信息 向 后 传 入 下 一 层 的 神经 网 络 。 神 经 网 络 之 所 以 能 解决 非 线 性 问题 
《如 语音 、 图 像 识别 ) ， 本 质 上 就 是 油 活 函数 加 入 了 非 线性 因素 ， 弥 补 了 线性 
模型 的 表达 力 ， 把 “激活 的 神经 元 的 特征 ?通过 函数 保留 并 映射 到 下 一 层 。 


因为 神经 网 络 的 数学 基础 是 处 处 可 微 的 ， 所 以 选取 的 激活 函数 要 能 保证 数 
据 答 入 与 输出 也 是 可 微 的 。 那 么 激活 函数 在 TensorFlow 中 是 如 何 表 达 的 呢 ? 


激活 函数 不 会 更 改 输入 数据 的 维度 ， 也 就 是 输入 和 输出 的 维度 是 相同 的 。 
TensorFlow 中 有 如 下 激活 函数 ， 它 们 定义 在 tensorflow- 
1.1.0/tensorflow/python/ops/nn.py 文 件 中 ， 这 里 包括 平滑 非 线 性 的 激活 函数 ， 如 
sigmoid、tanh、elu、softplus 和 softsign， 也 包括 连续 但 不 是 处 处 可 微 的 函数 
relu、relu6、crelu 和 和 relu_ x， 以 及 随机 正则 化 函数 dropout: 


tf.nn.relu() 

tf.nn.sigmoid( ) 

tf.nn.tanh() 

tf.nn.elu() 

tf.nn.bias_add() 

tf.nn.crelu() 

tf.nn.relu6() 

tf.nn.softplus() 

tf.nn.softsign() 

tf.nn.dropout() # 防止 过 拟 合 ， 用 来 舍弃 某 些 神经 元 


上 述 激活 函数 的 输入 均 为 要 计算 的 x 〈 一 个 张 量 ) ， 输 出 均 为 与 x 数 据 类 型 


们 就 来 逐一 讲解 。 


(1) sigmoid 函 数 。 这 是 传统 神经 网 络 中 最 常用 的 激活 函数 之 一 
征 tanh) ， 对 应 的 公式 和 图 像 如 图 4-3 所 示 。 


使 用 方法 如 下 : 


a = tf.constant([[1.0, 2.0], [1.0, 2.0], [1.0, 2.0]]) 
sess = tf.Session() 
print sess.run(tf.sigmoid(a) ) 


图 4-3 


相同 的 张 量 。 常 见 的 激活 函数 有 sigmoid、tanh、relu 和 和 softplusjX4 种 。 下 面 我 


另 一 个 


sigmoid 函 数 的 优点 在 于 ， 它 的 输出 映射 在 (0,1) 内 ， 单 调 连 续 ， 非 常 适合 
用 作答 出 层 ， 并 且 求 导 比较 容易 。 但 是 ， 它 也 有 缺点 ， 因 为 软 饱 和 性 ， 一 
旦 输入 落 入 饱和 区 ，f' (x ) 就 会 变 得 接近 于 0， 很 容易 产生 梯度 消失 56 o 


(2) tanh 函 数 。 对 应 的 公式 和 图 像 如 图 4-4 所 示 。 


1.0 F 


tanh 函 数 也 具有 软 饱 和 性 。 因 为 它 的 输出 以 0 为 中 心 ， 收 敛 速度 比 sigmoid 
要 快 。 但 是 仍 无 法 解决 梯度 消失 的 问题 。 


(3) relu 函 数 是 目前 最 受 欢迎 的 激活 函数 。softplus 可 以 看 作 是 ReLU 的 平 
滑 版 本 。relu 定 义 为 f(x )=max(x ,0)。softplus 定 义 为 f (x )=log(1+exp(x )) ° 


由 图 4-5 可 见 ，relu 在 x <0 时 硬 饮 和。 由 于 x >0 时 导数 为 1， 所 以 ，relu 能 够 
在 x >0 时 保持 梯度 不 隧 减 ， 从 而 缓解 梯度 消失 问题 ， 还 能 够 更 快 地 收 人 全， 并 提 
供 了 神经 网 络 的 稀 玻 表达 能 力 。 但 是 ， 随 着 训练 的 进行 ， 部 分 输入 会 落 到 便 饱 
和 区 ， 导 致 对 应 的 权重 无 法 更 新 ， 称 为 “神经 元 死亡 ”。 


softplus 
relu 


使 用 示例 如 下 : 


a = tf.constant([-1.0, 2.0]) 
with tf.Session() as sess: 

b = tf.nn.relu(a) 

print sess.run(b) 


be SreluA4h, TensorFlowi®se X Srelu6, th ite xe SE 
min(max(features, 0), 6)HJtf.nn.relu6(features, name=None)， 以 及 crelu， 世 就 是 


tf.nn.crelu(features, name=None) ° 

(4) dropout 范 数 。 一 个 神经 元 将 以 概率 keep_prob 决 定 是 否 被 抑制 。 如 果 
被 抑制 ， 该 神经 元 的 输出 就 为 0， 如 果 不 被 抑制 ， 那 么 该 神经 元 的 输出 值 将 被 
放大 到 原来 的 /keep_prob 倍 。 H7] 


在 默认 情况 下 ， 每 个 神经 元 是 否 被 抑制 是 相互 独立 的 。 但 是 否 被 抑制 也 可 
以 通过 noise_shape 来 调节 。 当 noise_shape[i] == shape(x)[i] 时 ，x 中 的 元 素 是 相 
互 独立 的 。 如 果 shape(x) = [k, 1, m, n]，x 中 的 维度 的 顺序 分 别 为 批 、 行 、 列 和 
通道 ， 如 果 noise_shape = [k, 1, 1, n]， 那 么 每 个 批 和 通道 都 是 相互 独立 的 ， 但 是 
每 行 和 每 列 的 数据 都 是 关联 的 ， 也 就 是 说 ， 要 不 都 为 0， 要 不 都 还 是 原来 的 


值 。 


使 用 示例 如 下 : 


a = tf.constant([[-1.0, 2.0, 3.0, 4.0]]) 
with tf.Session() as sess: 
b = tf.nn.dropout(a, 0.5, noise_shape [1,4]) 
print sess.run(b) 
b = tf.nn.dropout(a, 0.5, noise_shape = [1,1]) 
print sess.run(b) 


激活 画 数 的 选择 


当 输入 数据 特征 相差 明显 时 ， 用 tanh 的 效果 会 很 好 ， 且 在 循环 过 程 中 会 不 断 扩大 
特征 效果 并 显示 出 来 。 当 特征 相差 不 明显 时 ，sigmoid 效 果 比 较 好 。 同 时 ， 用 sigmoid 
和 tanh 作 为 激活 函数 时 ， 需 要 对 输入 进行 规范 化 ， 否 则 激活 后 的 值 全 部 都 进入 平坦 

区 ， 隐 层 的 输出 会 全 部 趋同 ， 丧 失 原 有 的 特征 表达 。 而 relu 会 好 很 多 ， 有 时 可 以 不 需 
要 输入 规范 化 来 避免 上 述 情 况 。 


pail 


因此 ， 现 在 大 部 分 的 卷 积 神经 网 络 都 采用 relu 作 为 激活 函数 。 我 估计 大 概 有 85% 
一 90% 的 神经 网 络 会 采用 ReLU，10% 一 15% 的 神经 网 络 会 采用 tanh， 尤 其 用 在 自然 语 
言 处 理 上 。 


4.7.2 FAR 


ABTA RM sa FE HIZEY RE HILAR EAR — EE 
ar ° 9.4.1 广 会 详细 讲解 卷 积 的 过 程 。 卷 积 贸 数 定 义 在 tensorflow- 
1.1.0/tensorflow/python/ops 下 的 nn_impl.py 和 nn_ops.py 文 件 中 。 


tf.nn.convolution(input, filter, padding, strides=None, 

dilation_rate=None, name=None, data_format=None) 
tf.nn.conv2d(input, filter, strides, padding, use_cudnn_on_gpu=None, 

data_format= None, name=None) 
tf.nn.depthwise_conv2d (input, filter, strides, padding, rate=None, 
name=None, 
data_format=None) 

tf.nn.separable_conv2d (input, depthwise_filter, pointwise_filter, 


strides, padding, 

rate=None, name=None, data_format=None) 
tf.nn.atrous_conv2d(value, filters, rate, padding, name=None) 
tf.nn.conv2d_transpose(value, filter, output_shape, strides, 
padding='SAME', 

data_format='NHWC', name=None) 
tf.nn.convid(value, filters, stride, padding, use_cudnn_on_gpu=None, 

data_format= None, name=None) 

tf.nn.conv3d(input, filter, strides, padding, name=None) 
tf.nn.conv3d_transpose(value, filter, output_shape, strides, 
padding='SAME', name=None) 


下 面 束 分 别 加 以 说 明 。 


(1) tf.nn.convolution(input, filter, padding, strides=None, 
dilation_rate=None, name=None, data_format =None) 这 个 函数 计算 N 维 卷 积 的 
和 。 


(2) tfnn.conv2d(input, filter, strides, padding, use_cudnn_on_gpu=None, 
data_format=None, name=None)iX A ER AY (FA et — “FD a AA input 
和 四 维 的 卷 积 核 filter 进 行 操作 ， 然 后 对 输入 数据 进行 一 个 二 维 的 卷 积 操作 ， 最 
后 得 到 卷 积 之 后 的 结 


def conv2d(input, filter, strides, padding, use_cudnn_on_gpu=None, 
data_format=None, name=None) 


3 
> 


input: 一 个 Tensor。 数 据 类 型 必须 是 float32 或 者 float64 
filter: 一 个 Tensor。 数 据 类 型 必须 是 input 相 同 
strides: 一 个 长 度 是 4 的 一 维 整数 类 型 数组 ， 每 一 维度 对 应 的 是 Input 中 每 一 维 的 对 应 移动 步 


比如 ，strides[1] 对 应 input[1] 的 移动 步 数 

padding: 一 个 字符 串 ， 取 值 为 SAME 或 者 VALID 

padding='SAME': 仅 适 用 于 全 尺寸 操作 ， 即 输入 数据 维度 和 输出 数据 维度 相同 
padding='VALID: 适用 于 部 分 窗口 ， 即 输入 数据 维度 和 输出 数据 维度 不 同 
use_cudnn_on_gpu: 一 个 可 选 布尔 值 ， 默 认 情 况 下 是 True 

name: (P) 为 这 个 操作 取 一 个 名 字 
:一 个 Tensor， 数 据 类 型 是 Input 相同 


Hoth Hk E He HE RH HOH 


RE 
af 
jae ma 


使 用 示例 如 下 : 


input_data = tf.Variable( np.random.rand(10,9,9,3), dtype = np.float32 ) 
filter_data = tf.Variable( np.random.rand(2, 2, 3, 2), dtype = np.float32) 
y = tf.nn.conv2d(input_data, filter_data, strides = [1, 1, 1, 1], padding 
= 'SAME') 


打印 出 tf.shape(y) 的 结果 是 [10 9 9 2] ° 


(3) tf.nn.depthwise_conv2d (input, filter, strides, padding, rate=None, 
name=None,data_format= None) 这 个 函数 输入 张 量 的 数据 维度 是 [batch, 
in_height, in_width, in_channels]， 卷 积 核 的 维度 是 [filter_height, filter_width, 
in_channels, channel_mnultiplier]， 在 通道 in_channels 上 面 的 卷 积 深度 是 1 
depthwise_: eevee aia 卷 积 核 独立 地 应 用 在 in_channels 的 每 个 通道 上 

(从 通道 1 到 通道 channel_multiplier) ， 然 后 把 所 以 的 结果 进行 汇总 。 最 后 输出 


通道 的 总 数 是 in_channels * channel_multiplier ° 


使 用 示例 如 下 : 


input_data = tf.Variable( np.random.rand(10, 9, 9, 3), dtype = np.float32 


) 

filter_data = tf.Variable( np.random.rand(2, 2, 3, 5), dtype = np.float32) 
y = tf.nn.depthwise_conv2d(input_data, filter_data, strides = [1, 1, 1, 
1], padding = 'SAME') 


这 里 打印 出 tf.shape(y) 的 结果 是 [10 9 9 15] ° 


(4) tf.nn.separable_conv2d (input, depthwise_filter, pointwise_filter, strides, 
padding, rate=None, name=None, data_format=None) 是 利用 几 个 分 离 的 卷 积 核 去 
做 卷 积 。 在 这 个 API 中 ， 将 应 用 一 个 二 维 的 卷 积 核 ， 在 每 个 通道 上 ， 以 深度 
channel_multiplier 进 行 卷 积 


def separable_conv2d (input, depthwise_filter, pointwise_filter, strides, 
padding, 


# 特殊 参数 : 


rate=None, name=None, data_format=None ) 


# depthwise filter: 一 个 张 量 。 数 据 维度 是 四 
in_channels, 
# channel multiplier]。 其 中 ，in_channels 的 卷 积 深度 是 1 

# ”pointwise_filter: 一 个 张 量 。 数 据 维 度 是 四 维 [1,，1, channel_multiplier * 
in_channels, 

# ”out_channels]。 其 中 ，pointwise_filter 是 在 depthwise_filter 卷 积 之 后 的 混合 卷 积 


ASS 


Æ[filter_ height, filter_width, 


使 用 示例 如 下 : 


input_data = tf.Variable( np.random.rand(10, 9, 9, 3), dtype = np.float32 


depthwise_filter = tf.Variable( np.random.rand(2, 2, 3, 5), dtype = 

np.float32) 

pointwise filter = tf.Variable( np.random.rand(1, 1, 15, 20), dtype = 

np.float32) 

# out_channels >= channel_multiplier * in_channels 

y = tf.nn.separable_conv2d(input_data, depthwise_filter, pointwise_filter, 
strides = [1, 1, 1, 1], padding = 'SAME') 


这 里 打印 出 tf.shape(y) 的 结果 是 [10 9 9 20] ° 


(5) tf.nn.atrous_conv2d(value, filters, rate, padding, name=None) 计 算 Atrous 


郑 积 ， 叉 称 孔 卷 积 或 者 扩张 郑 积 。 
使 用 示例 如 下 : 


input_data = tf.Variable( np.random.rand(1,5,5,1), dtype = np.float32 ) 
filters = tf.Variable( np.random.rand(3,3,1,1), dtype = np.float32) 
y = tf.nn.atrous_conv2d(input_data, filters, 2, padding='SAME' ) 


这 里 打印 出 tf.shape(y) 的 结果 是 [1 551] ° 


(6) tf.nn.conv2d_transpose(value, filter, output_shape, strides, 
padding='SAME', data_format="NHWC', name=None) 1181 在 解 卷 积 网 络 
(deconvolutional network) 中 有 时 称 为 “ 反 卷 积 "， 但 实际 上 是 conv2d 的 转 置 ， 
而 不 是 实际 的 反 卷 积 。 


def conv2d_transpose(value, filter, output_shape, strides, padding='SAME', 
data_format='NHWC', name=None) 
# 特殊 参数 : 


# output_shape: 一 维 的 张 量 ， 表 示 反 卷 积 运算 后 输出 的 形状 
# 输出 ;和 value 一 样 维度 的 Tensor 


=! 


ANS 
> 


xi 


使 用 示例 如 下 : 


x = tf.random_normal(shape=[1,3,3,1]) 

kernel = tf.random_normal(shape=[2,2,3,1]) 

y = tf.nn.conv2d_transpose(x, kernel, output_shape=[1,5,5, 3], 
strides=[1,2,2,1],padding="SAME" ) 


这 里 打印 出 tf.shape(y) 的 结果 是 [1 5 5 3] ° 


(7) tfnn.convid(value, filters, stride, padding, use_cudnn_on_gpu=None, 
data_format=None, name=None) 和 二 维 卷 积 类 似 。 这 个 函数 是 用 来 计算 给 定 三 
维 的 输入 和 过 滤 絮 的 情况 下 的 一 维 卷 积 。 不 同 的 是 ， 它 的 输入 是 三 维 ， 如 
[batch, in_width, in_channels]。 卷 积 核 的 维度 也 是 三 维 ， 少 了 一 维 filter_height， 
如 [filter_width, in_channels, out_channels]。stride 是 一 个 正 整 数 ， 代 表 卷 积 核 癌 
右 移动 每 一 步 的 长 度 。 


(8) tfnn.conv3d(input, filter, strides, padding, name=None) 和 二 维 卷 积 类 
似 。 这 个 函数 用 来 计算 给 定 五 维 的 输入 和 过 滤 希 的 情况 下 的 三 维 卷 积 。 和 二 维 
卷 积 相对 比 : 


。 input 的 shape 中 多 了 一 维 in_depth， 形 状 为 Shape[batch, in_depth, in_height, 
in_width, in_channels]; 

。 filter 的 shape 中 多 了 一 维 filter_depth， 由 filter_depth, filter_height, 
filter_width 构 成 了 卷 积 核 的 大 小 ; 

。 strides 中 多 了 一 维 ， 变 为 [strides_batch, strides_depth, strides_height, 
strides_width, strides_channel]， 必 须 保证 strides[0] = strides[4] = 1 ° 


(9) tf.nn.conv3d_transpose(value, filter, output_shape, strides, 
padding='SAME', name=None)#il — 42/2 BARA (WL, Aa o 


4.7.3 WRK 


在 神经 网 络 中 ， 池 化 函数 一 般 跟 在 卷 积 函数 的 下 一 层 ， 它 们 也 被 定义 在 
tensorflow-1.1.0/ tensorflow/python/ops 下 的 nn.py 和 gen_nn_ops.py 文 件 中 。 


0O 


tf.nn.avg_pool(value, ksize, strides, padding, data_format='NHWC', 
name=None ) 
tf.nn.max_pool(value, ksize, strides, padding, data_format='NHWC', 
name=None) 
tf.nn.max_pool_with_argmax(input, ksize, strides, padding, Targmax=None, 
name=None) 
tf.nn.avg_pool3d(input, ksize, strides, padding, name=None) 
tf.nn.max_pool3d(input, ksize, strides, padding, name=None) 
tf.nn.fractional_avg_pool(value, pooling_ratio, pseudo_random=None, 
over lapping=None, 

deterministic=None, seed=None, seed2=None, 
name=None) 
tf.nn.fractional_max_pool(value, pooling_ratio, pseudo_random=None, 
over lapping=None, 

deterministic=None, seed=None, seed2=None, 
name=None) 
tf.nn.pool(input, window_shape, pooling_type, padding, dilation_rate=None, 
strides=None, 

name=None, data_format=None) 


WREN A — AERA eh ET, AE TR at O PE 
通过 取 最 大 值 或 乎 均值 来 减少 元 素 个 数 。 每 个 池 化 操作 的 矩阵 窗口 大 小 十 由 
ksize 指 定 的 ， 并 且 根 据 步 长 strides 决 定 移动 步 长 。 下 面 就 分 别 来 说 明 。 


(1) tfnn.avg_pool(value, ksize, strides, padding, data_format='NHWC', 
name=None)。 这 个 函数 计算 池 化 区 域 中 元 素 的 平均 值 。 


def avg_pool(value, ksize, strides, padding, data_format='NHWC', 
name=None) 

# 输入 : 

# value: 一 个 四 维 的 张 量 。 数 据 维 度 是 [batch, height, width, channels] 

# ksize: 一 个 长 度 不 小 于 4 的 整 型 数组 。 每 一 位 上 的 值 对 应 于 输入 数据 张 量 中 每 一 维 的 窗口 对 应 
值 


# strides: 一 个 长 度 不 小 于 4 的 整 型 数组 。 该 参数 指定 滑动 窗口 在 输入 数据 张 量 每 一 维 上 的 步 长 

# padding: 一 个 字符 串 ， 取 值 为 SAME 或 者 VALID 

i data_format: 'NHWC' 代 表 输 入 张 量 维度 的 顺序 ，N 为 个 数 ，H 为 高 度 ，W 为 宽度 ，C 为 通道 数 
RGB 一 

# ”通道 或 者 灰 度 单 通道 ) 

# name (MË) : 为 这 个 操作 取 一 个 名 字 

# 输出 : 一 个 张 量 ， 数 据 类 型 和 value 相 同 


使 用 示例 如 下 : 


input_data = tf.Variable( np.random.rand(10,6,6,3), dtype = np.float32 ) 
filter_data = tf.Variable( np.random.rand(2, 2, 3, 10), dtype = 
np. float32) 


y = tf.nn.conv2d(input_data, filter_data, strides = [1, 1, 1, 1], padding 
= 'SAME') 
output = tf.nn.avg_pool(value = y, ksize = [1, 2, 2, 1], strides = [1, 1, 
1, 1], 

padding ='SAME') 


上 述 代 码 打 印 出 tt.shape(outpub 的 结果 是 [10 6 6 10]。 计 算 输出 维度 的 方法 


是 : shape(output) = (shape(value) - ksize + 1) / strides ° 


(2) tf.nn.max_pool(value, ksize, strides, padding, data_format='NHWC’, 
name=None)。 这 个 函数 是 计算 池 化 区 域 中 元 素 的 最 大 值 。 


使 用 示例 如 下 : 


input_data = tf.Variable( np.random.rand(10,6,6,3), dtype = np.float32 ) 
filter_data = tf.Variable( np.random.rand(2, 2, 3, 10), dtype = 
np. float32) 
y = tf.nn.conv2d(input_data, filter_data, strides = [1, 1, 1, 1], padding 
= 'SAME') 
output = tf.nn.max_pool(value = y, ksize = [1, 2, 2, 1], strides = [1, 1, 
1, 1], 

padding ='SAME') 


上 述 代 码 打 印 出 tt.shape(outpub 的 结果 是 [10 6 6 10] ° 


(3) tf.nn.max_pool_with_argmax(input, ksize, strides, padding, Targmax = 
None, name=None)。 这 个 函数 的 作用 是 计算 池 化 区 域 中 元 素 的 最 大 值 和 该 最 大 
值 所 在 的 位 置 。 


在 计算 位 置 argmax 的 时 候 ， 我 们 将 input 铺 平 了 进行 计算 ， 所 以 ， 如 果 inpnut 
= [b,yxc， 那 么 索引 位 置 是 ((b height + y) width + x) * channels + c ° 
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现 : 


input_data = tf.Variable( np.random.rand(10,6,6,3), dtype = tf.float32 ) 
filter_data = tf.Variable( np.random.rand(2, 2, 3, 10), dtype = 
np.float32) 


y = tf.nn.conv2d(input_data, filter_data, strides = [1, 1, 1, 1], padding 
= 'SAME') 
output, argmax = tf.nn.max_pool_with_argmax(input = y, ksize = [1, 2, 2, 
1], 

strides = [1, 1, 1, 1], 
padding = 'SAME') 


返回 结果 是 一 个 张 量 组 成 的 元 组 (output, argmax) ，output 表 示 池 化 区 域 
的 最 大 值 ; argmax 的 数据 类 型 是 Targmax， 维 度 是 四 维 。 


(4) ttnn.avg_pool3d0 和 tt.nn.max_pool3d0 分 别 是 在 三 维 下 的 平均 池 化 和 
最 大 池 化 。 


(5) tft.nn.fractional_avg_pool0 和 tt.nn.fractional_max_pool0 分 别 是 在 三 维 


下 的 平均 池 化 和 最 大 池 化 。 


(6) tf.nn.pool(input, window_shape, pooling_type, padding, 
dilation_rate=None, strides=None, name=None, data_format=None) ° 这 个 函数 执 


行 一 个 N 维 的 池 化 操作 。 
4.7.4 “分 类 函数 


TensorFlow 中 种 见 的 分 类 函数 主要 有 sigmoid_cross_entropy_with_logits、 
softmax ` log_softmax ` softmax_cross_entropy_with_logits 等 ， 它 们 也 主要 定义 


在 tensorflow-1.1.0/tensorflow/python/ops 的 nn.py 和 nn_ops.py 文 件 中 。 


tf.nn.sigmoid_cross_entropy_with_logits(logits, targets, name=None) 
tf.nn.softmax(logits, dim=-1, name=None) 

tf.nn.log_softmax(logits, dim=-1, name=None) 
tf.nn.softmax_cross_entropy_with_logits(logits, labels, dim=-1, name=None) 
tf.nn.sparse_softmax_cross_entropy_with_logits(logits, labels, name=None) 
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(1) tf.nn.sigmoid_cross_entropy_with_logits(logits, targets, name=None): 


def sigmoid_cross_entropy_with_logits(logits, targets, name=None): 
输入 : logits:[batch_size, num_classes],targets:[batch_size, size].logits 


最 后 一 层 不 需要 进行 Sigmoid 运 算 ， 此 函数 内 部 进行 了 sigmoid 操 作 


# 

用 最 

# erat ABU 
# 

# 输出 : loss [batch_size, num_classes] 


A ee 如 果 采 用 此 函数 作为 损失 函数 ， 在 神经 网 络 
a m 不 需要 进行 sigmoid 运 算 。 


(2) tf.nn.softmax(logits, dim=-1, name=None) 计 算 Softmax 激 活 ， 也 就 是 


softmax = exp(logits) / reduce_sum(exp(logits), dim) ° 


(3) tfnn.log_softmax(logits, dim=-1, name=None)it @log softmax 激 活 ， 也 


WL logsoftmax = logits - log(reduce_sum(exp(logits), dim)) ° 


(4) tfnn.softmax_cross_entropy_with_logits(_sentinel=None, labels=None, 


logits=None, dim=-1, name =None): 


def softmax_cross_entropy_with_logits(logits, targets, dim=-1, name=None): 
# 输入 : logits and labels 均 为 [batch_size, num_classes] 


# 输出 : loss:[batch_size], Biman ebatch He SAAC A 


(5) tfnn.sparse_softmax_cross_entropy_with_logits(logits, labels, 


name=None) : 


def sparse_softmax_cross_entropy_with_logits(logits, labels, name=None): 
# 1ogits 是 神经 网 络 最 后 一 层 的 结果 
# 输入 : logits: [batch_size, num_classes] labels: [batch_size]， 必 须 在 [9， 
num_classes] 

# 输出 : loss [batch_size], HMR batch Pe MEAAIZ I 


4.7.5 ”优化 方法 

如 何 加 速 神经 网 络 的 训练 呢 ? 目前 加 速 训 练 的 优化 方法 基本 都 是 基于 梯度 
下 降 的 ， 只 是 细节 上 有 些 差 异 。 梯 度 下 降 是 求 函数 极 值 的 一 种 方法 ， 学 习 到 最 
后 正 古 求 损 失 函 数 的 极 值 问 题 。 


TensorFlow 提 供 了 很 多 优化 器 (optimizer) ， 我 们 重点 介绍 下 面 这 8 个 : 


class tf.train.GradientDescentOptimizer 
class tf.train.AdadeltaOptimizer 

class tf.train.AdagradOptimizer 

class tf.train.AdagradDAOptimizer 

class tf.train.MomentumOptimizer 

class tf.train.AdamOptimizer 

class tf.train.Ftrloptimizer 

class tf.train.RMSPropOptimizer 


这 8 个 优化 器 对 应 8 种 优化 方法 ， 分 别 是 梯度 下 降 法 (BGD 和 SGD) ` 
Adadelta 法 、Adagrad 法 〈Adagrad 和 AdagradDAO) 、Momentum 法 
(Momentum 和 Nesterov Momentum) 、Adam、Ftrl 法 和 RMSProp 法 ， 其 中 
BGD、SGD、Momentum 和 Nesterov Momentum 是 手动 指定 学 习 率 的 ， 其 余 算 
法 能 够 目 动 调节 学 习 率 。 


下 面 整 介绍 其 中 儿 种 优化 方法 。 


1. BGD 法 


BGD 的 全 称 是 batch gradient descent， 即 批 梯度 下 降 。 这 种 方法 是 利用 现 有 
参数 对 训练 集中 的 每 一 个 输入 生成 一 个 估计 输出 y; ， 然 后 跟 实际 输出 y; 比较 ， 
统计 所 有 误差 ， 求 平均 以 后 得 到 平均 误差 ， 以 此 作为 更 新 参数 的 依据 。 它 的 迭 
代 过 程 为 : 


(1) 提取 训练 集中 的 所 有 内 容 {x 1 ,.…, xn， 以 及 相关 的 输出 ; 


(2) 计算 梯度 和 误差 并 更 新 参数 。 


这 种 方法 的 优点 是 ， 使 用 所 有 训练 数据 计算 ， 能 够 保证 收敛 ， 并 且 不 需要 
逐渐 减少 学 习 率 ; 缺点 是 ， 每 一 步 都 需要 使 用 所 有 的 训练 数据 ， 随 着 训练 的 进 
行 ， 速 度 会 越 来 越 慢 。 


那么 ， 如 果 将 训练 数据 拆 分 成 一 个 个 批 次 (batch) ， 每 次 抽取 一 批 数据 
来 更 新 参数 ， 是 不 是 会 加 速 训 练 呢 ? 这 就 是 最 常用 的 SGD。 


2. SGD 法 
SGD 的 全 称 是 stochastic gradient descent， 即 随机 梯度 下 降 。 因 为 这 种 方法 


的 主要 思想 是 将 数据 集 拆 分 成 一 个 个 批 次 (batch) ， 随 机 抽取 一 个 批 次 来 计 
算 并 更 新 参数 ， 所 以 也 称 为 MBGD (minibatch gradient descent) 。 


SGD 在 每 一 次 迭代 计算 mini-batch 的 梯度 ， 然 后 对 参数 进行 更 新 。 与 BGD 
目 比 ，SGD 在 训练 数据 集 很 大 时 ， 仍 能 以 较 快 的 速度 收敛 。 但 是 ， 它 仍然 会 有 
下 面 两 个 缺点 。 


> 


(1) 由 于 抽取 不 可 避免 地 梯度 会 有 误差 ， 需 要 手动 调整 学 习 率 (leaming 
rate) ， 但 古 选 择 合 适 的 学 习 率 又 比较 困难 。 尤 其 在 训练 时 ， 我 们 常 第 想 对 常 
出 现 的 特征 更 新 速度 快 一 些 ， 而 对 不 党 出 现 的 特征 更 新 速度 慢 一 些 ， 而 SGD 在 
更 新 参数 时 对 所 有 参数 采用 一 样 的 学 习 率 ， 因 此 无 法 满足 要 求 。 


(2) SGD 容 易 收 敛 到 局 部 最 优 ， 并 且 在 某 些 情况 下 可 能 被 困 在 鞍点 。 


为 了 解决 学 习 率 固定 的 问题 ， 又 引入 了 Momentum 法 。 


3. Momentum} 


Momentum 是 模拟 物理 学 中 动量 的 概念 ， 更 新 时 在 一 定 程 度 上 保留 之 前 的 
更 新 方向 ， 利 用 当前 的 批 次 再 微调 本 次 的 更 新 参数 ， 因 此 引入 了 一 个 新 的 变量 
v GREE) ， 作 为 前 几 次 梯度 的 累加 。 因 此 ，Momentum 能 够 更 新 学 习 率 ， 在 
下 降 初 期 ， 前 后 梯度 方 同 一 致 时 ， 能 够 加 速 学 习 ; 在 下 降 的 中 后 期 ， 在 局 部 最 
小 值 的 附近 来 回 震 沪 时 ， 能 够 抑制 震 萝 ， 加 快 收敛 。 


4. Nesterov Momentum 法 


Nesterov Momentum 法 由 Hya Sutskever 在 Nesterov 工 作 的 局 发 下 提出 的 ， 是 
对 传统 Momentum 法 的 一 项 改进 ， 其 基本 思路 如 图 4-6 所 示 。 


-一 - 1 号 线 标准 的 Momentum 
T 一 一 2 号 线 跳跃 
f at Me 3 号 线 有 待 修正 的 梯度 
sie nae. _-- 4 号 线 累积 梯度 
图 4.6 [19] 


标准 Momentum 法 首先 计算 一 个 梯度 〈 短 的 1 号 线 ) ， 然 后 在 加 速 更 新 梯 
度 的 方向 进行 一 个 大 的 跳跃 (长 的 1 号 线 ) ; Nesterov 项 首先 在 原来 加 速 的 梯度 
方向 进行 一 个 大 的 跳跃 (2 号 线 ) ， 然 后 在 该 位 置 计算 梯度 值 BS) ， 然 后 
用 这 个 梯度 值 修正 最 终 的 更 新 方向 MF) ° 


上 面 介绍 的 优化 方法 都 需要 我 们 自己 设 定 学 习 率 ， 接 下 来 介绍 几 种 自 适 应 
学 习 率 的 优化 方法 。 


5. Adagrad 法 


Adagrad 法 能 够 目 适应 地 为 各 个 参数 分 配 不 同 的 学 习 率 ， 能 够 控制 每 个 维 
度 的 梯度 方向 。 这 种 方法 的 优点 是 能 够 实现 学 习 率 的 自动 更 改 : 如 采 本 次 更 新 
时 梯度 大 ， 学 习 率 束 职 减 得 快 一 些 ， 如 果 这 次 更 新 时 梯度 小 ， 学 习 率 衰减 得 就 


慢 一 些 。 


6. Adadelta 法 
Adagrad 法 仍然 存在 一 些 问题 : 其 学 习 率 单调 递减 ， 在 训练 的 后 期 学 习 率 


非常 小 ， 并 且 需 要 手动 设置 一 个 全 局 的 初始 学 习 率 。Adadelta 法 用 一 阶 的 方 
法 ， 近 似 模 拟 二 阶 牛 顿 法 ， 人 解决 了 这 些 问 题 。 


7. RMSprop 法 

RMSProp 法 与 Momentum 法 类 似 ， 通 过 引入 一 个 衰减 系数 ， 使 每 一 回合 都 
衰减 一 定 比 例 。 在 实践 中 ， 对 循环 神经 网 络 (RNN) 效果 很 好 。 
8. Adam 法 

Adam 的 名 称 来 源 于 自 适应 矩 估 计 20l (adaptive moment estimation) 。 
Adam 法 根据 损失 函数 针对 每 个 参数 的 梯度 的 一 阶 矩 估计 和 二 阶 和 矩 估 计 动 态 调 
整 每 个 参数 的 学 习 率 。 
9. 各 个 方法 的 比较 

Karpathy 在 MNIST 数 据 集 上 用 上 还 几 个 优化 器 做 了 一 些 性 能 比较 ， 发 现 如 
下 规律 CU. 在 不 怎么 调整 参数 的 情况 下 ，Adagrad 法 比 SGD 法 和 Momentum 法 
更 稳定 ， 性 能 更 优 : 精 调 参数 的 情况 下 ， 精 调 的 SGD 法 和 Momentum 法 在 收敛 
速度 和 准确 性 上 要 优 于 Adagrad 法 。 


各 个 优化 器 的 损失 值 比 较 结果 如 图 4-7 所 示 。 
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一 一 adadelta 
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图 4-7 


各 个 优化 器 的 测试 准确 率 比较 如 图 4-8 所 示 。 
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图 4-8 


各 个 优化 器 的 训练 准确 率 比 较 如 图 4-9 所 示 。 
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图 4-9 


想 要 更 深入 研究 各 种 优化 方法 ， 可 以 参考 《An overview of gradient descent 


optimization algorithms) 22 o 


48 ”模型 的 存储 与 加 载 


训练 好 一 个 神经 网 络 模型 后 ， 我 们 束 布 望 能 够 将 其 应 用 在 预测 数据 上 。 那 
么 ， 如 何 把 模型 存储 起 来 呢 ? 同时 ， 对 于 一 个 已 经 存储 起 来 的 模型 ， 在 将 其 应 
用 在 预测 数据 上 时 又 如 何 加 载 呢 ? 


TensorFlow 的 API 提 供 了 以 下 两 种 方式 来 存储 和 加 载 模 型 。 


(1) 生成 检查 点 文件 (checkpoint file) ， 扩 展 名 一 般 为 .ckpt， 通 过 在 
tf.train.Saver 对 和 象 上 调用 Saver.save() 生 成 。 它 包含 权重 和 其 他 在 程序 中 定义 的 变 
量 ， 不 包含 图 结构 。 如 果 需 要 在 男 一 个 程序 中 使 用 ， 需 要 重新 创建 图 形 结构 ， 
并 告诉 TensorFlow 如 何 处 理 这 些 权 重 。 


(2) 生成 图 协议 文件 (graph proto file) ， 这 是 一 个 二 进 制 文件 ， 扩 展 名 
一 般 为 .pb， 用 tf.train.write_graph( 〇 保存， 只 包含 图 形 结构 ， 不 包含 权重 ， 然 后 


使 用 tf.import_graph_def() 来 加 载 图 形 。 


下 面 我 们 就 分 “模型 存储 "和 “图 存储 ”来 介绍 这 两 种 方式 。 在 TensorFlow 的 
高 级 API， 如 Keras 中 ， 也 提供 了 更 高 级 的 语句 来 保存 和 加 载 模型 ， 在 7.2.3 节 中 


会 介绍 


4.8.1 ”模型 的 存储 与 加 载 


模型 存储 主要 是 建立 一 个 tt.train.Saver0) 来 保存 变量 ， 并 且 指 定 保存 的 位 
置 ， 一 般 模型 的 扩展 名 为 .ckpt ° 


下 面 我 们 定义 一 个 新 的 神经 网 络 ， 含 两 个 全 连接 层 和 一 个 输出 层 ， 来 训练 
MNIST 数 据 集 ， 并 把 训练 好 的 模型 存储 起 来 。 我 们 用 MNIST 数 据 集 来 说 明 。 


[23] 


1. 加 载 数据 及 定义 模型 
加 载 数据 及 定义 模型 的 代码 如 下 : 


# 加 载 数据 
mnist = input_data.read_data_sets("MNIST_data/", one_hot=True) 
trX, try, tex, teY = mnist.train.images, mnist.train.labels, 
mnist.test.images, 

mnist.test.labels 


tf.placeholder("float", [None, 784]) 
tf.placeholder("float", [None, 10]) 
初始 化 权重 参数 

= init_weights([784, 625]) 

_h2 = init_weights([625, 625]) 

= init_weights([625, 10]) 


# 定义 权重 函数 
def init_weights(shape): 
return tf.Variable(tf.random_normal(shape, stddev=0.01) ) 
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# 定义 模型 

def model(X, w_h, w_h2, w_o, p_keep_input, p_keep_hidden): 
# 第 一 个 全 连接 层 
X = tf.nn.dropout(X, p_keep_input) 

h = tf.nn.relu(tf.matmul(X, w_h)) 


tf.nn.dropout(h, p_keep_hidden) 
二 个 全 连接 层 

tf.nn.relu(tf.matmul(h, w_h2)) 
tf.nn.dropout(h2, p_keep_hidden) 


NN 
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return tf.matmul(h2, w_o) # 输 出 预测 值 


生成 网 络 模型 ， 得 到 预测 值 ， 代 码 如 下 : 


p_keep_input = tf.placeholder("float") 
p_keep_hidden = tf.placeholder("float") 


py_x = model(X, w_h, w_h2, w_o, p_keep_input, p_keep_hidden) 


定义 损失 函数 ， 代 码 如 下 : 


cost = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(py_x, Y)) 
train_op = tf.train.RMSPropOptimizer(0.001, ©.9).minimize(cost) 
predict_op = tf.argmax(py_x, 1) 
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储 下 来 。 


2. 训练 模型 及 存储 模型 


首先， 我 们 定义 一 个 存储 路 径 ， 这 里 就 用 当前 路 径 下 的 ckpt_dir 目 录 ， 代 
码 如 下 : 


ckpt_dir = "./ckpt_dir" 


if not os.path.exists(ckpt_dir): 
os.makedirs(ckpt_dir) 


定义 一 个 计数 器 ， 为 训练 轮 数 计数 ， 代 码 如 下 : 


# 计数 器 变量 ， 设 置 它 的 trainable=False， 不 需要 被 训练 
global_step = tf.Variable(0, name='global_step', trainable=False) 


当 定义 完 所 有 变量 后 ， 调 用 tf.train.Saver() 来 保存 和 提取 变量 ， 其 后 面 定 义 
的 变量 将 不 会 被 存储 ， 代 码 如 下 : 


# 在 声明 完 所 有 变量 后 ， 调 用 tf ,train.Saver 
saver = tf.train.Saver( 
# 位 于 tf.train.Saver 之 后 的 变量 将 不 会 被 存储 

non_storable_variable = tf.Variable(777) 


训练 模型 并 存储 ， 如 下 : 


with tf.Session() as sess: 
tf.initialize_all_variables().run() 


start = global_step.eval() # 得 到 global_step 的 初始 值 
print("Start from:", start) 


for i in range(start, 100): 
# 以 128 作 为 batch_size 
for start, end in zip(range(0, len(trX), 128), range(128, len(trxX)+1, 
128)): 
sess.run(train_op, feed_dict={X: trX[start:end], Y: trY[start:end], 
p_keep_input: 0.8, p_keep_hidden: 0.5}) 


global_step.assign(i).eval() # 更 新 计数 器 
saver.save(sess, ckpt_dir + "/model.ckpt", global_step=global_step) # 
存储 模型 
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是， 在 训练 的 过 程 中 ，ckpt_dir 下 会 出 现 16 个 文件 ， 其 中 有 5 个 
model.ckpt-{n}.data- 00000-of-00001 文 件 ， 是 训练 过 程 中 保存 的 模型 ，5 个 
model.ckpt-{n}.meta 文 件 ， 是 训练 过 程 中 保存 的 元 数据 (TensorFlow 默 认 只 保 
存 最 近 5 个 模型 和 元 数据 ， 删 除 前 面 没 用 的 模型 和 元 数据 ) ，5 个 model.ckpt- 
fnj.index 文 件 ，{to} 代 表 和 迭代 次 数 ， 以 及 1 个 检查 点 文本 文件 ， 里 面 保存 着 当前 
模型 和 最 近 的 5 个 模型 ， 内 容 如 下 : 


model_checkpoint_path: "model.ckpt-60" 

all_model_checkpoint_paths: "model.ckpt-56" 
all_model_checkpoint_paths: "model.ckpt-57" 
all_model_checkpoint_paths: "model.ckpt-58" 
all_model_checkpoint_paths: "model.ckpt-59" 


= 


all_model_checkpoint_paths: "model.ckpt-60" 


那么 ， 假 如 在 训练 某 个 模型 时 突然 因为 茶 种 原因 ， 脚 本 停止 运行 了 ， 或 者 
机 器 重启 了 ， 是 不 是 就 要 从 头 开 始 训 练 呢 ? 我 们 知道 ， 训 练 一 个 神经 网 络 的 时 
间 都 比较 长 ， 少 则 几 个 小 时 ， 多 则 几 天 ， 甚 至 几 周 。 如 末 能 将 之 前 训练 的 参数 
保存 下 来 ， 避 ® 可 以 在 出 现 意 外 状况 时 接着 上 一 次 的 地 方 开始 训练 。 此 外 ， 每 个 
固定 的 轮 数 在 检查 点 保存 一 个 模型 (.ckpt 文 件 ) ， 也 有 利于 随时 将 模型 拿 出 来 
进行 预测 ， 用 前 儿 次 的 预测 效果 就 可 以 估计 出 神经 网 络 究竟 设计 得 怎么 样 。 


3. 加 载 模型 
如 果 有 已 经 训练 好 的 模型 变量 文件 ， 可 以 用 saver.restore 来 进行 模型 加 载 : 


with tf.Session() as sess: 
tf.initialize_all_variables().run() 


ckpt = tf.train.get_checkpoint_state(ckpt_dir) 

if ckpt and ckpt.model_checkpoint_path: 
print (ckpt.model_checkpoint_path) 
saver.restore(sess, ckpt.model_checkpoint_ path) # 加 载 所 有 的 参数 
# 从 这 里 开始 就 可 以 直接 使 用 模型 进行 预测 ， 或 者 接着 继续 训练 了 


4.8.2 图 的 存储 与 加 载 
当 仅 保存 图 模型 时 ， 才 将 图 写 入 二 进 制 协议 文件 中 ， 例 如 : 


v = tf.Variable(0, name='my_variable') 
sess = tf.Session() 


tf.train.write_graph(sess.graph_def, '/tmp/tfmodel', 'train.pbtxt') 


当 读 取 时 ， 又 从 协议 文件 中 读 取出 来 : 


with tf.Session() as _sess: 
with gfile.FastGFile("/tmp/tfmodel/train.pbtxt",'rb') as f: 
graph_def = tf.GraphDef() 
graph_def.ParseFromString(f.read() ) 


_sess.graph.as_default() 
tf.import_graph_def(graph_def, name='tfgraph' ) 


49 队列 和 线程 


和 TensorFlow 中 的 其 他 组 件 一 样 ， 队 列 (queue) 本 身 也 是 图 中 的 一 个 节 
点 ， 是 一 种 有 状态 的 节点 ， 其 他 节点 ， 如 入 队 节 点 (enqueue) 和 出 队 节 点 
(dequeue) ， 可 以 修改 它 的 内 容 。 例 如 ， 入 队 节 点 可 以 把 新 元 素 插 到 队列 末 
尾 ， 出 队 节 点 可 以 把 队列 前 面 的 元 素 删 除 。 本 节 主 要 介绍 队列 、 队 列 管理 器 、 
线程 和 协调 器 的 有 关 知 识 。 


4.9.1 ”队列 


TensorFlow 中 主要 有 两 种 队列 ， 即 FIFOQueue 和 RandomShuffleQueue， 它 
们 的 源 代 码 实 现在 tensorflow-1.1.0/tensorflow/python/ops/data_flow_ops.py 中 。 


1. FIFOQueue 


FIFOQueue 创 建 一 个 先入 先 出 队列 。 例 如 ， 我 们 在 训练 一 些 语音 、 文 字样 
本 时 ， 使 用 循环 神经 网 络 的 网 络 结构 ， 和 希望 读 入 的 训练 样本 是 有 序 的 ， 就 要 用 
FIFOQueue。 关 于 循环 神经 网 络 的 讲解 参见 9.5 节 。 


我 们 先 创建 一 个 含有 队列 的 图 : 


import tensorflow as tf 


# 创建 一 个 先入 先 出 队列 ,初始 化 队列 插入 0.1、0.2、0.3 三 个 数字 
q = tf.FIFOQueue(3, "float") 
init = q.enqueue_many(([0.1, 0.2, 0.3],)) 
HBA > +4 > ABRE 
= q.dequeue() 
= X + 工 
_inc = q.enqueue([y]) 


al 


然后 开局 一 个 会 话 ， 执 行 2 次 q_inc 操 作 ， 随 后 查看 队列 的 内 容 : 


with tf.Session() as sess: 
sess.run(init) 
quelen = sess.run(q.size()) 
for i in range(2): 
sess.run(q_inc) # 执行 2 次 操作 ， 队 列 中 的 值 变 为 0.3,1.1,1.2 


quelen = sess.run(q.size()) 
for i in range(quelen): 
print (sess.run(q.dequeue())) # 输出 队列 的 值 


最 终结 果 如 下 : 
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2. RandomShuffleQueue 


RandomShuffleQueue 创 建 一 个 随机 队列 ， 在 出 队列 时 ， 是 以 随机 的 顺序 产 
生 元 素 的 。 例 如 ， 我 们 在 训练 一 些 图 像样 本 时 ， 使 用 CNN 的 网 络 结构 ， 和 希望 可 
以 无 序 地 读 入 训练 样本 ， 就 要 用 RandomShuffleQueue， 每 次 随机 产生 一 个 训练 
样本 。 关 于 CNN 的 实战 讲解 参见 第 10 章 。 


RandomShuffleQueue 在 TensorFlow 使 用 异步 计算 时 非常 重要 。 因 为 
TensorFlow 的 会 话 是 支持 多 线程 的 ， 我 们 可 以 在 主线 程 里 执行 训练 操作 ， 使 用 
RandomShuffleQueue 作 为 训练 输入 ， 开 多 个 线程 来 准备 训练 样本 ， 将 样本 压 入 
队列 后 ， 主 线程 会 从 队列 中 每 次 取出 mini-batch 的 样本 进行 训练 。 详 细 的 例子 
将 在 4.10 下 中 详细 讲解 。 


下 面 我 们 创建 一 个 随机 队列 ， 队 列 最 大 长 度 为 10， 出 队 后 最 小 长 度 为 2: 


q = tf.RandomShuffleQueue(capacity=10, min_after_dequeue=2, 


dtypes="float") 


然后 开启 一 个 会 话 ， 执 行 10 次 入 队 操 作 ，8 次 出 队 操 作 : 


sess = tf.Session() 
for i in range(0, 10): #10 次 入 队 
sess.run(q.enqueue(i) ) 


for i in range(0, 8): # 8 次 出 队 
print(sess.run(q.dequeue() ) ) 


发 现 结果 确实 是 乱 序 的 : 
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试 修改 出 队 此 时 为 10 次 ， 即 不 保留 队列 最 小 长 度 ， 发 现 队列 输出 8 次 结果 后 ， 
在 终端 仍然 阻 是 了 “。 现 象 如 图 4-10 所 示 ， 在 箭头 处 卡 在 不 动 。 这 种 情况 称 为 阻 
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图 4-10 


阻 断 一 般 发 生 在 : 


。 队列 长 度 等 于 最 小 值 ， 执 行 出 队 操 作 ; 
。 队列 长 度 等 于 最 大 值 ， 执 行 入 队 操作 。 


只 有 队列 满足 要 求 后 ， 才 能 继续 执行 。 可 以 通过 设置 绘画 在 运行 时 的 等 竺 
时 间 来 解除 阻 断 ; 


run_options = tf.RunOptions(timeout_in_ms = 10000) # 等 待 10 秒 


try: 

sess.run(q.dequeue(), options=run_options) 

except tf.errors.DeadlineExceededError: 
print('out of range') 


上 面 的 例子 都 是 在 会 话 的 主线 程 中 进行 入 队 操 作 。 当 数据 量 很 大 时 ， 入 队 
操作 从 硬盘 中 读 取 数据 ， 放 入 内 存 中 ， 主 线程 需要 等 等 入 队 操 作 完 成 ， 才 能 进 
行 训练 操作 。 会 话 中 可 以 运行 多 个 线程 ， 我 们 使 用 线程 管理 咒 QueueRunner 创 
建 一 系列 的 新 线程 进行 入 队 操作 ， 让 主线 程 继续 使 用 数据 ， 即 训练 网 络 和 读 取 
数据 是 异步 的 ， 主 线程 在 训练 网 络 ， 另 一 个 线程 在 将 数据 从 硬 强 读 入 内 存 。 


4.9.2 ”队列 管理 器 
我 们 创建 一 个 含有 队列 的 图 : 


q = tf.FIFOQueue(1000, "float") 


counter = tf.Variable(0.0) # 计数 器 
increment_op = tf.assign_add(counter，tf.constant(1.0)) # 操作 : 给 计数 器 加 


1 
enqueue_op = q.enqueue(counter) # 操作 : 计数 器 值 加 入 队列 


创建 一 个 队列 管理 器 QueueRunner， 用 这 两 个 操作 向 队列 g 中 添加 元 素 。EE 
前 我 们 只 使 用 一 个 线程 : 


enqueue_ops=[increment_op, enqueue_op] * 1) 


qr = tf.train.QueueRunner (q, 


局 动 一 个 会 话 ， 从 队列 管理 器 qr 中 创建 线程 : 


# 主 线程 
with tf.Session() as sess: 
sess.run(tf.global_variables_initializer()) 
enqueue_threads = qr.create_threads(sess, start=True) # 启动 入 队 线 程 
# 主 线程 
for i in range(10): 
print (sess.run(q.dequeue())) 


输出 结 采 如 下 : 


不 是 我 们 期 竺 的 自然 数列 ， 并 且 线 程 被 阻 断 。 这 是 因为 加 1 操作 和 入 队 操 
作 不 同步 ， 可 能 加 1 操作 执行 了 很 多 次 之 后 ， 才 会 进行 一 次 入 队 操 作 。 男 外 ， 
因为 主线 程 的 训练 (出 队 操 作 ) 和 读 取 数据 的 线程 的 训练 CAD RIE) 是 异步 
的 ， 主 线程 会 一 直 等 得 数据 送 入 。 


QueueRunner 有 一 个 问题 就 是 : 入 队 线 程 自 顾 自 地 执行 ， 在 需要 的 出 队 操 
作 完 成 之 后 ， 程 序 没 法 结束 。 这 样 就 要 使 用 tf.train.Coordinator 来 实现 线程 间 的 
同步 ， 终 止 其 他 线程 。 


4.9.3 ”线程 和 协调 器 
使 用 协调 器 (coordinator) 来 管理 线程 : 


# 主线 程 


sess = tf.Session() 
sess.run(tf.global_variables_initializer()) 


# Coordinator: 协调 器 ， 协 调 线程 间 的 关系 可 以 视 为 信号 量 ， 用 来 做 同步 


coord = tf.train.Coordinator() 


# 启动 入 队 线程 ， 协 调 器 是 线程 的 参数 


enqueue_threads = qr.create_threads(sess, coord = coord,start=True) 


# 主线 程 
for i in range(0, 10): 
print(sess.run(q.dequeue() ) ) 


coord. request_stop()# 通知 其 他 线程 关闭 
coord,join(enqueue_threads) # join 操作 等 待 其 他 线程 结束 ， 其 他 所 有 线程 关闭 之 后 ， 这 一 
函数 才能 返 下 


发 现 上 述 代 码 能 正常 运行 ， 返回 结 果 ， 并 结束 。 但 我 们 发 现 ， 在 天 闭 队列 
线程 后 ， 再 执行 出 队 操作 ， 束 会 抛 出 tt.errors.OutOfRange 错 误 。 把 
coord.request_stop0 和 主线 程 的 出 队 操 作 q.dequeue0 调 换 位 置 ， 如 下 : 


coord.request_stop() 


# 主线 程 
for i in range(0, 10): 
print(sess.run(q.dequeue() ) ) 


coord. join(enqueue_threads) 


这 种 情况 就 需要 使 用 tf.errors.OutOfRangeError 来 捕捉 错误 ， 终 止 循环 : 


coord.request_stop() 


# ERTH 
for i in range(0, 10): 
try: 
print(sess.run(q.dequeue())) 
except tf.errors.OutOfRangeError: 
break 


coord. join(enqueue_threads) 


所 有 队列 管理 器 被 默认 加 在 图 的 tt.GraphKeys.QUEUE_RUNNERS 集 合 


4.10 ”加 载 数据 


TensorFlow 作 为 符号 编程 框架 ， 需 要 先 构 建 数据 流 图 ， 再 读 取 数据 ， 随 后 
进行 模型 训练 。TensorFlow 官 方 网 站 给 出 了 以 下 读 取 数据 3 种 方法 2 o 


。 预 加 载 数据 (preloaded data) : 在 TensorFlow 图 中 定义 常量 或 变量 来 保存 
所 有 数据 。 

。 填充 数据 (feeding) : Python 产生 数据 ， 再 把 数据 填充 后 端 。 

。 从 文件 读 取 数据 (reading from file) : 从 文件 中 直接 读 取 ， 让 队列 管理 
从 文件 中 读 取 数据 。 


4.10.1 ” 预 加 载 数据 
预 加 载 数据 的 示例 如 下 : 


I 
D 


a 


x1 = tf.constant([2, 3, 4]) 
x2 = tf.constant([4, ©, 1]) 
y = tf.add(x1, x2) 


这 种 方式 的 缺点 在 于 ， 将 数据 直接 典 在 数据 流 图 中 ， 当 训练 数据 较 大 时 ， 
很 消耗 内 存 。 


4.10.2 ”填充 数据 
使 用 sess.run0 中 的 feed_dict 参 数 ， 将 Python 产生 的 数据 填充 给 后 端 。 


import tensorflow as tf 
# 设计 图 
a1 = tf.placeholder(tf.int16) 
a2 = tf.placeholder(tf.int16) 
b = tf.add(x1, x2) 


# 用 Python 产生 数据 
1i1 = [2, 3, 4] 
1i2 = [4, 0, 1] 
# 打开 一 个 会 话 ， 将 数据 填充 给 后 端 
with tf.Session() as sess: 
print sess.run(b, feed_dict={a1: 1i1, a2: 112}) 
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让 TensorFlow 目 己 从 文件 中 读 取 数据 ， 并 解码 成 可 使 用 的 样本 集 。 


4.10.3 ”从 文件 读 取 数据 
从 文件 读 取 数据 分 为 如 下 两 个 步 又 : 


(1) 把 样本 数据 写 入 TFRecords 二 进 制 文件 ; 


(2) 再 从 队列 中 读 取 。 


我 们 以 MNIST 数 据 集 为 例 来 说 明 ， 如 何 把 MNIST 的 数据 转换 成 TFRecords 
文件 。 


TFRecords 是 一 种 二 进 制 文件 ， 能 更 好 地 利用 内 存 ， 更 方便 地 复制 和 移 
动 ， 并 且 不 需要 单独 的 标记 文件 。 接 下 来 我 们 就 看 一 下 如 何 转 换 ， 具 体 代 码 参 


见 tensorflow-1.1.0/tensorflow/examples/ 


how_tos/reading_data/convert_to_records.py ° 
1. 生成 TFRecords 文 件 
我 们 定义 主 画 数 ， 给 训练 、 验 证 、 测 试 数据 集 做 转换 : 


def main(unused_argv): 
# 获取 数据 
data_sets = mnist.read_data_sets(FLAGS.directory, 
dtype=tf.uints, # 注意 ， 
reshape=False, 
validation_size=FLAGS.validation_size) 


这 里 的 编码 是 uint8 


EF 


# 将 数据 转换 为 tf.train.Example 类 型 ， 并 写 入 TFRecords 文 伯 
convert_to(data_sets.train, 'train') 
convert_to(data_sets.validation, 'validation' ) 
convert_to(data_sets.test, 'test') 


转换 函数 convert_to 的 主要 功能 是 ， 将 数据 填 入 到 tf.train.Example 的 协议 缓 
冲 区 (protocol buffer) 中 ， 将 协议 缓冲 区 序列 化 为 一 个 字符 串 ， 通 过 
tf.python_io.TFRecordWriter 写 入 TFRecords 文 件 。 


def convert_to(data_set, name): 

images = data_set.images 

labels = data_set.labels 

num_examples = data_set.num_examples # 55000 个 训练 数据 ，5000 个 验证 数据 ， 
10000 个 测试 数据 


if images.shape[0] != num_examples: 
raise ValueError('Images size %d does not match label size %d.' % 
(images.shape[0], num_examples) ) 
rows images.shape[1] # 28 
cols images.shape[2] # 28 
depth = images.shape[3] # 1， 是 黑白 图 像 ， 所 以 是 单 通 道 


filename = os.path.join(FLAGS.directory, name + '.tfrecords') 
print('Writing', filename) 
writer = tf.python_io.TFRecordwriter (filename) 


for index in range(num_examples): 
image_raw = images[index].tostring() 

# 写 入 协议 缓冲 区 中 ，height、width、depth、1label 编 码 成 jnt64 类 型 ，ijmage_raw 编 码 
成 二 进 制 
example = tf.train.Example(features=tf.train.Features(feature={ 

"height': _int64_feature(rows), 

"width': _int64_feature(cols), 

‘depth': _int64_feature(depth), 

‘label’: 
_int64_feature(int(labels[index])), 

‘image_raw': _bytes_feature(image_raw)})) 


writer.write(example.SerializeToString()) # 序列 化 为 字符 串 
writer.close() 


FATS EAC P : 


def _int64_feature(value): 


return tf.train.Feature(int64 list=tf.train.Int64List(value=[value])) 


def _bytes_feature(value): 
return tf.train.Feature(bytes_list=tf.train.BytesList(value=[value] ) ) 


运行 结束 后 ， 在 /tmpy/data 下 生成 3 个 文件 ， 即 train.tfrecords、 


validation.tfrecords 和 test.tfrecords。 


2. 从 队列 中 读 取 


一 旦 生成 了 TFRecords 文 件 ， 接 下 来 就 可 以 使 用 队列 读 取 数 据 了 。 主 要 分 
为 3 步 : 


(1) 创建 张 量 ， 从 二 进 制 文件 读 取 一 个 样本 ; 


(2) 创建 张 量 ， 从 二 进 制 文件 随机 读 取 一 个 mini-batch; 


(3) 把 每 一 批 张 量 传 入 网 络 作为 输入 节点 。 
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代码 参见 tensorflow- 


1.1.0/tensorflow/examples/how_tos/reading_data/fully_connected_reader.py ° 


首先 我 们 定义 从 文件 中 读 取 并 解析 一 个 样本 : 


def read_and_decode(filename_queue): # 输入 文件 名 队列 
reader = tf.TFRecordReader() 
_, serialized_example = reader.read(filename_queue) 
features = tf.parse_single_example( # 解析 example 
serialized_example, 
# 必须 写 明 features 里 面 的 key 的 名 称 
features={ 
'image_raw': tf.FixedLenFeature([], tf.string), # 图 片 是 string 类 型 
'label': tf.FixedLenFeature([], tf.int64), # 标记 是 jnt64 类 型 


em 


}) 
# 对 于 BytesList， 要 重新 进行 解码 ， 把 string 类 型 的 9 维 Tensor 变 成 uint8 类 型 的 一 维 
Tensor 
image = tf.decode_raw(features['image_raw'], tf.uints8) 
image.set_shape([mnist . IMAGE_PIXELS] ) 
# Tensor("input/DecodeRaw:0", shape=(784,), dtype=uints) 


# jmage 张 量 的 形状 为 : Tensor("input/sub:0", shape=(784,), dtype=float32) 


image = tf.cast(image, tf.float32) * (1. / 255) - 0.5 


# 把 标记 从 uint8 类 型 转换 为 int32 类 型 
# label 张 量 的 形状 为 Tensor ("input/Cast_1:0",， shape=(), dtype=int32) 
label = tf.cast(features['label'], tf.int32) 


return image, label 


接 下 来 使 用 tttrain.shuffle_batch 将 前 面 生成 的 样本 随机 化 ， 获 得 一 个 最 小 
批 次 的 张 量 : 


qu} 


def inputs(train, batch_size, num_epochs): 


# 输入 参数 : 

# train: 选择 输入 训练 数据 /验证 数据 
# batch_size: 训练 的 每 一 批 有 多 少 个 样本 

# num_epochs: 过 几 遍 数据 ， 设 置 为 0/None 表 示 永 远 训练 下 去 


返回 结果 : A tuple (images, labels) 
* images: 类 型 float， 形 状 [batch_size，mnist.IMAGE_PIXELS]， 范 围 [-0.5， 


0.5] 


ar 


* labels: 类 型 int32， 形 状 [batch_size]， 范围 [0, mnist.NUM_CLASSES] 
注意 tf.train.QueueRunner 必须 用 tf.train.start_queue_runners() 来 启动 线程 


if not num_epochs: num_epochs = None 
# 获取 文件 路 径 ,， 即 /tmp/data/train.tfrecords, /tmp/data/validation.records 


filename = os.path.join(FLAGS.train_dir, 
TRAIN_FILE if train else VALIDATION_FILE) 


with tf.name_scope('input'): 

# tf.train.string_input_produceri&[=]—“QueueRunner, HA 
filename_queue = tf.train.string_input_producer ( 

[filename], num_epochs=num_epochs) # 如 果 样 本 量 很 大 ， 可 以 分 成 若干 文件 ， 把 文 


件 名 列表 传 入 


image, label = read_and_decode(filename_queue) 


个 FIFOQueue 


可 
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# 随机 化 example， 并 把 它们 规整 成 patch_size 大 小 
# tf.train.shuffle_batch 生 成 了 RandomShuffleQueue， 并 开启 两 个 线程 
images, sparse_labels = tf.train.shuffle_batch( 

[image, label], batch_size=batch_size, num_threads=2, 

capacity=1000 + 3 * batch_size, 

min_after_dequeue=1000) # 留 下 一 部 分 队列 ， 来 保证 每 次 有 足够 的 数据 做 随机 打 乱 


return images, sparse_labels 


最 后 ， 我 们 把 生成 的 batch 张 量 作 为 网 络 的 输入 ， 进 行 训练 : 


def run_training(): 
with tf.Graph().as_default(): 
# 输入 ijmages 和 labels 
images, labels = inputs(train=True, batch_size=FLAGS.batch_size, 
num_epochs=FLAGS.num_epochs ) 


# 构建 一 个 从 推理 模型 来 预测 数据 的 图 

logits = mnist.inference(images, 
FLAGS. hidden1, 
FLAGS.hidden2) 


loss = mnist.loss(logits, labels) # 定义 损失 函数 


# Add to the Graph operations that train the model. 
train_op = mnist.training(loss, FLAGS.learning_rate) 


# 初始 化 参数 ， 特 别 注意 : string_input_producer 内 部 创建 了 一 个 epoch 计 数 变量 ， 
# 归 入 tf.GraphKeys.LOCAL_VARIABLES 集 合 中 ， 必 须 单独 用 
initialize local _variables() 初 始 化 
init_op = tf.group(tf.global_variables_initializer(), 
tf.local_variables_initializer()) 


sess = tf.Session() 
sess.run(init_op) 


# Start input enqueue threads. 
coord = tf.train.Coordinator() 
threads = tf.train.start_queue_runners(sess=sess, coord=coord) 


try: 
step = 0 
while not coord.should_stop(): # 进入 永久 循环 
start_time = time.time() 
_, loss_value = sess.run([train_op, loss] ) 
duration = time.time() - start_time 


# 每 109 次 训练 输出 一 次 结果 
if step % 100 == 0: 
print('Step %d: loss = %.2f (%.3f sec)' % (step, loss_value, 
duration) ) 
step += 1 
except tf.errors.OutOfRangeError: 
print('Done training for %d epochs, %d steps.' % (FLAGS.num_epochs, 
step) ) 
finally: 
coord.request_stop() # 通知 其 他 线程 关闭 


coord,join(threads ) 
sess.close() 


输出 结 采 如 下 : 


Step 0: loss = 
Step 100: loss 
Step 200: loss 
Step 300: loss 
Step 400: loss 
Step 500: loss 
Step 600: loss 
Step 700: loss 
Step 800: loss 62 (0.026 sec) 

Step 900: loss .56 (0.028 sec) 

Step 1000: loss = 0.49 (0.018 sec) 

Done training for 2 epochs, 1100 steps. 


29 (0.193 sec) 

05 (0.030 sec) 
63 (0.022 sec) 
38 (0.025 sec) 
94 (0.027 sec) 
86 (0.027 sec) 
68 (0.024 sec) 
67 (0.028 sec) 
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数据 集 大 小 为 5 5000，2 轮 训练 ， 共 110 000 个 数据 ，batch_size 大 小 为 
100， 故 训练 次 数 为 1 100 次 ， 每 100 次 训练 输出 一 次 结果 ， 共 输出 11 次 结果 。 


如 上 所 述 ， 我 们 总 结 出 TensorFlow 使 用 TFRecords 文 件 训 练 样本 的 步骤 : 


(1) 在 生成 文件 名 队列 中 ， 设 定 epoch 数 量 ; 
(2) 训练 时 ， 设 定 为 无 穷 循环 ; 


(3) 在 读 取 数据 时 ， 如 果 捕 捉 到 错误 ， 终止 。 


4.11 实现 一 个 目 定 义 操作 


尽管 TensorFlow 自 己 提供 了 足够 多 的 操作 ， 初 学 者 甚至 中 高 级 的 读者 都 可 
以 直接 用 手册 中 的 API 来 实现 自己 的 业务 需求 。 想 创建 一 个 不 包含 在 现 有 
TensorFlow 库 中 的 操作 ， 可 以 先 试 试用 现 有 的 Python 操作 的 组 合 能 不 能 实现 ， 
如 果 现 有 操作 的 组 合 不 能 实现 ， 或 者 能 够 实现 但 是 效率 不 高 ， 再 或 者 因为 发 现 
在 XLA 框 架 中 难以 自己 融合 (对 XLA 的 讲解 参见 第 16 章 ) ， 想 手工 融合 几 个 操 
作 ， 如 何 实现 呢 ? 


本 市 内 容 较 难 ， 需 要 熟练 掌握 C++ 语 言 ， 并 且 对 张 量 的 流动 和 前 向 传播 和 
有 反 疝 传播 有 很 深 的 理解 。 建 议 初学 者 跳 过 这 部 分 内 容 ， 看 完全 书 之 后 再 看 本 


节 。 
4.11.1 步骤 
要 有 自 定 义 一 个 操作 ， 最 简单 的 是 需要 以 下 3 步 。 


(1) 在 C++ 文件 (*_ops.cc 文 件 ) 中 注册 新 的 操作 。 这 里 定义 了 操作 功能 
的 接口 规范 ， 如 操作 的 名 称 、 输 入 和 和 输出 以 及 属性 等 。 


(2) 在 C++ 文件 〈*_ kernels.cc 文 件 ) 中 实现 这 个 操作 。 也 就 是 ， 对 上 一 
步 中 操作 注册 规范 的 具体 实现 ， 可 以 实现 在 如 CPU、GPU 等 多 个 内 核 上 。 


(3) 测试 操作 。 编 译 出 该 操作 的 库 文 件 (*_ops.so 文 件 ) ， 然 后 在 Python 
中 使 用 这 个 操作 。 


因此 ， 要 创建 一 个 新 的 操作 ， 需 要 掌握 一 些 C++ 语 言 的 知识 。 
4.11.2 ”最 佳 实践 
下 面 以 词 租 入 的 例子 来 说 明 ， 源 代码 参见 


https://github.com/tensorflow/models/blob/master/ 
tutorials/embedding/word2vec_optimized.py ° 在 3.3.2 字 中 ， 我 们 以 租 入 投影 仪 
的 可 视 化 讲 过 这 个 Word2vec 的 可 视 化 例子 。 


第 一 步 ， 我 们 创建 word2vec_ops.cc 来 注册 两 个 操作 ， 即 SkipgramWord2vec 
和 NegTrainWord2vec， 代 码 如 下 : 


#include "tensorflow/core/framework/op.h" 
namespace tensorflow { 


REGISTER_OP("SkipgramWord2vec" ) 
.Output("vocab_word: string") 
.Output("vocab_freq: int32") 
.Output("words_per_epoch: int64") 
.Output("current_epoch: int32") 
.Output("total_words_processed: int64") 


.Output( "examples: int32") 
.Output( "labels: int32") 
.SetIsStateful() 
.Attr("filename: string") 
.Attr("batch_size: int") 
.Attr("window_size: int = 5" 
-Attr("min_count: int = 5") 
.Attr("subsample: float = 1e 
.Doc(R"doc( 

Parses a text file and creates a batch of examples. 


) 


-3") 


vocab_word: A vector of words in the corpus. 
vocab_freq: Frequencies of words. Sorted in the non-ascending order. 
words_per_epoch: Number of words per epoch in the data file. 
current_epoch: The current epoch number. 
total_words_processed: The total number of words processed so far. 
examples: A vector of word ids. 
labels: A vector of word ids. 
filename: The corpus's text file name. 
batch_size: The size of produced batch. 
window_size: The number of words to predict to the left and right of the 
target. 
min_count: The minimum number of word occurrences for it to be included in 
the 
vocabulary. 
subsample: Threshold for word occurrence. Words that appear with higher 
frequency will be randomly down-sampled. Set to © to disable. 
)doc"); 


REGISTER_OP("NegTrainWord2vec" ) 
.Input("w_in: Ref(float)") 
.Input("w_out: Ref(float)") 
.Input("examples: int32") 
.Input("labels: int32") 
.Input("lr: float") 
.SetIsStateful() 
-Attr("vocab_count: list(int)") 
.Attr("num_negative_samples: int") 
.Doc(R"doc( 

Training via negative sampling. 


w_in: input word embedding. 

w_out: output word embedding. 

examples: A vector of word ids. 

labels: A vector of word ids. 

vocab_count: Count of words in the vocabulary. 
num_negative_samples: Number of negative samples per example. 
)doc"); 


第 二 步 ， 我 们 将 这 两 个 操作 在 CPU 设备 上 进行 实现 ， 生 成 
word2vec_kernels.cc 文 件 ， 代 码 如 下 : 


#include "tensorflow/core/framework/op.h" 

#include "tensorflow/core/framework/op_kernel.h" 

#include "tensorflow/core/lib/core/stringpiece.h" 

#include "tensorflow/core/lib/gtl/map_util.h" 

#include "tensorflow/core/1lib/random/distribution_sampler.h" 
#include "tensorflow/core/1lib/random/philox_random.h" 
#include "tensorflow/core/lib/random/simple_philox.h" 
#include "tensorflow/core/lib/strings/str_util.h" 

#include "tensorflow/core/platform/thread_annotations.h" 
#include "tensorflow/core/util/guarded_philox_random.h" 


namespace tensorflow { 


// 预先 计算 的 示例 数 

const int kPrecalc = 3000; 

// 处 理 前 读 入 句子 的 字数 

const int kSentenceSize = 1000; 


namespace { 


bool ScanWord(StringPiece* input, string* word) { 
str_util: :RemoveLeadingwhitespace(input); 
StringPiece tmp; 
if (str_util::ConsumeNonWhitespace(input, &tmp)) { 
word->assign(tmp.data(), tmp.size()); 
return true; 
} else { 
return false; 
} 
} 


} 


class SkipgramWord2vecOp 
public: 
explicit SkipgramWord2vecOp(OpKernelConstruction* ctx) 
: OpKernel(ctx), rng_(&philox_) { 
string filename; 


: public OpKernel { 


OP_REQUIRES_OK(ctx, 
OP_REQUIRES_OK(ctx, 
OP_REQUIRES_OK(ctx, 
OP_REQUIRES_OK(ctx, 
OP_REQUIRES_OK(ctx, 
OP_REQUIRES_OK(ctx, 


mutex_lock 1(mu_); 
example_pos_ = 
label_pos_ = 
label_limit_ = 
sentence_index_ = 


ctx->GetAttr("filename", &filename)); 
ctx->GetAttr("batch_size", &batch_size_)); 
ctx->GetAttr("window_size", &window_size_)); 
ctx->GetAttr("min_count", &min_count_)); 
ctx->GetAttr("subsample", &subsample_)); 
Init(ctx->env(), filename) ); 


corpus_size_; 
corpus_size_; 
corpus_size_; 
kSentenceSize; 


for (int i = 0; i < kPrecalc; ++i) { 
NextExample(&precalc_examples_[i].input, 
&precalc_examples_[i].label); 


} 


void Compute(OpKernelContext* ctx) override { 
Tensor words_per_epoch(DT_INT64, TensorShape({})); 
Tensor current_epoch(DT_INT32, TensorShape({})); 
Tensor total_words_processed(DT_INT64, TensorShape({})); 
Tensor examples(DT_INT32, TensorShape({batch_size_})); 
auto Texamples = examples.flat<int32>(); 
Tensor labels(DT_INT32, TensorShape({batch_size_})); 
auto Tlabels = labels. flat<int32>(); 


mutex_lock 1(mu_); 
for (int i = 0; i < batch_size_; ++i) { 
Texamples(i) = precalc_examples_[precalc_index_].input; 
Tlabels(i) = precalc_examples_[precalc_index_].label; 
precalc_index_++; 
if (precalc_index_ >= kPrecalc) { 
precalc_index_ = 0; 
for (int j = 0; j < kPrecalc; ++j) { 
NextExample(&precalc_examples_[j].input, 
&precalc_examples_[j].label); 
} 


} 
} 


words_per_epoch.scalar<int64>()() = corpus_size_; 
current_epoch.scalar<int32>()() = current_epoch_; 
total_words_processed.scalar<int64>()() = total_words_processed_; 
} 
ctx->set_output(0, word_); 
ctx->set_output(1, freq_); 
ctx->set_output(2, words_per_epoch) ; 
ctx->set_output(3, current_epoch); 
ctx->set_output(4, total_words_processed) ; 
ctx->set_output(5, examples); 
ctx->set_output(6, labels); 
} 


private: 

struct Example { 
int32 input; 
int32 label; 


}; 

int32 batch_size_ = 0; 
int32 window_size_ = 5; 
float subsample_ = 1e-3; 
int min_count_ = 5; 
int32 vocab_size_ = 0; 


Tensor word_; 

Tensor freq_; 

int64 corpus_size_ = 0; 
std: :vector<int32> corpus_; 


std::vector<Example> precalc_examples_; 


int precalc_index_ = 0; 

std: :vector<int32> sentence_; 
int sentence_index_ = 0; 
mutex mu_; 


random: :PhiloxRandom philox_ GUARDED_BY(mu_); 
random: :SimplePhilox rng_ GUARDED_BY(mu_); 

int32 current_epoch_ GUARDED_BY(mu_) = -1; 

int64 total_words_processed_ GUARDED_BY(mu_) = 0; 
int32 example_pos_ GUARDED_BY(mu_); 

int32 label_pos_ GUARDED_BY(mu_); 

int32 label_limit_ GUARDED_BY(mu_); 


TT 


//{example_pos_, label_pos_} 是 下 一 个 示例 的 光标 。example_pos_ 在 corpus_ 结尾 处 换 
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// 对 每 个 例子 ， 我 们 为 标记 随机 生成 [Ilabe1_pos_，1label_1limit] 
void NextExample(int32* example, int32* label) 
EXCLUSIVE_LOCKS_REQUIRED(mu_) { 
while (true) { 
if (label_pos_ >= label_limit_) { 
++total_words_processed_; 
++sentence_index_; 
if (sentence_index_ >= kSentenceSize) { 
sentence_index_ = 0; 
for (int i = 0; i < kSentenceSize; ++i, ++example_pos_) { 
if (example_pos_ >= corpus_size_) { 
++current_epoch_; 
example_pos_ = 0; 


} 
if (subsample > 0) { 
int32 word_freq = freq_.flat<int32>() 
(corpus_[example_pos_]); 
// See Eq. 5 in http://arxiv.org/abs/1310. 4546 
float keep_prob = 
(std::sqrt(word_freq / (subsample_ * corpus_size_)) + 1) 


(subsample_ * corpus_size_) / word_freq; 
if (rng_.RandFloat() > keep_prob) { 


1--; 
continue; 
} 
sentence_[i] = corpus_[example_pos_]; 
} 
const int32 skip = 1 + rng_.Uniform(window_size_); 
label_pos_ = std::max<int32>(0, sentence_index_ - skip); 


label_limit_ = 
std: :min<int32>(kSentenceSize, sentence_index_ + skip + 1); 


if (sentence_index_ != label_pos_) { 
break; 


++label_pos_; 


} 


*example = sentence_[sentence_index_]; 
*label = sentence_[label_pos_++]; 


} 


Status Init(Env* env, const string& filename) { 
string data; 
TF_RETURN_IF_ERROR(ReadFileToString(env, filename, &data)); 
StringPiece input = data; 
string w; 
corpus_size_ = 0; 
std::unordered_map<string, int32> word_freq; 
while (ScanWord(&input, &w)) { 
++(word_freq[w]); 
++corpus_size_; 


if (corpus_size_ < window_size_ * 10) 
return errors: :InvalidArgument("The text file ", filename, 
"contains too little data: ", 
corpus_size_, " words"); 


typedef std::pair<string, int32> WordFreq; 
std: :vector<wordFreq> ordered; 
for (const auto& p : word_freq) { 
if (p.second >= min_count_) ordered.push_back(p); 


LOG(INFO) << "Data file: " << filename << " contains " << data.size() 
<< " bytes, " << corpus_size_ << " words, " << 
word_freq.size() 
<< " unique words, " << ordered.size() 
<< " unique frequent words."; 
word_freq.clear(); 
std::sort(ordered.begin(), ordered.end(), 
[](const WordFreq& x, const WordFreq& y) { 
return x.second > y.second; 
H); 
vocab_size_ = static_cast<int32>(1 + ordered.size()); 
Tensor word(DT_STRING, TensorShape({vocab_size_})); 
Tensor freq(DT_INT32, TensorShape({vocab_size_})); 
word.flat<string>()(0) = "UNK"; 
static const int32 kUnkId = 0; 
std::unordered_map<string, int32> word_id; 
int64 total_counted = 0; 
for (std::size_t i = 0; i < ordered.size(); ++i) { 
const auto& w = ordered[i].first; 
auto id = i + 1; 
word.flat<string>()(id) = w; 
auto word_count = ordered[i].second; 
freq. flat<int32>()(id) = word_count; 
total_counted += word_count; 
word_id[w] = id; 


} 

freq.flat<int32>()(kUnkId) = corpus_size_ - total_counted; 
word_ = word; 

freq_ = freq; 

corpus_.reserve(corpus_size_); 

input = data; 


while (ScanWord(&input, &w)) { 
corpus_.push_back(gtl::FindwithDefault(word_id, w, kUnkId)); 


precalc_examples_.resize(kPrecalc); 
sentence_.resize(kSentenceSize) ; 
return Status: :0OK(); 
} 
}; 


REGISTER_KERNEL_BUILDER(Name(" Skipgramword2vec") .Device(DEVICE_CPU), 
Skipgramword2vecOp); 


class NegTrainWord2vecOp : public OpKernel { 
public: 
explicit NegTrainword2vecOp(OpKernelConstruction* ctx) : OpKernel(ctx) 
base_.Init(0, 0); 


OP_REQUIRES_OK(ctx, ctx->GetAttr("num_negative_samples", 
&num_samples_)); 


std: :vector<int32> vocab_count; 
OP_REQUIRES_OK(ctx, ctx->GetAttr("vocab_count", &vocab_count)); 


std::vector<float> vocab_weights; 
vocab_weights.reserve(vocab_count.size()); 
for (const auto& f : vocab_count) { 
float r = std::pow(static_cast<float>(f), 0.75f); 
vocab_weights.push_back(r); 


sampler_ = new random: :DistributionSampler(vocab_weights); 


} 


~NegTrainword2vecOp() { delete sampler_; } 


void Compute(OpKernelContext* ctx) override { 

Tensor w_in = ctx->mutable_input(0, false); 

OP_REQUIRES(ctx, TensorShapeUtils: :IsMatrix(w_in.shape()), 
errors: :InvalidArgument("Must be a matrix")); 

Tensor w_out = ctx->mutable_input(1, false); 

OP_REQUIRES(ctx, w_in.shape() == w_out.shape(), 
errors: :InvalidArgument("w_in.shape == w_out.shape")); 

const Tensor& examples = ctx->input(2); 

OP_REQUIRES(ctx, TensorShapeUtils: :IsVector(examples.shape()), 
errors: :InvalidArgument("Must be a vector")); 

const Tensor& labels = ctx->input(3); 

OP_REQUIRES(ctx, examples.shape() == labels.shape(), 
errors: :InvalidArgument("examples.shape == 

labels.shape")); 

const Tensor& learning_rate = ctx->input(4); 

OP_REQUIRES(ctx, TensorShapeUtils: :IsScalar(learning_rate.shape()), 
errors: :InvalidArgument("Must be a scalar")); 


auto Tw_in = w_in.matrix<float>(); 

auto Tw_out = w_out.matrix<float>(); 
auto Texamples = examples.flat<int32>(); 
auto Tlabels = labels. flat<int32>(); 


auto lr = learning_rate.scalar<float>()(); 
const int64 vocab_size = w_in.dim_size(0); 
const int64 dims = w_in.dim_size(1); 
const int64 batch_size = examples.dim_size(0); 
OP_REQUIRES(ctx, vocab_size == sampler_->num(), 

errors: :InvalidArgument("vocab_size mismatches: ", 

vocab_size, 
"vs. ", sampler_->num())); 


// v_in 的 梯度 累加 器 
Tensor buf(DT_FLOAT, TensorShape({dims})); 
auto Tbuf = buf.flat<float>(); 


Tensor g_buf(DT_FLOAT, TensorShape({})); 
auto g = g_buf.scalar<float>(); 


// 在 下 面 的 循环 中 ， 每 个 负 样 本 需要 两 个 随机 32 位 值 

// 我 们 为 每 个 样本 保留 8 个 值 ， 防 止 基础 实现 发 生变 化 

auto rnd = base_.ReserveSamples32(batch_size * num_samples_ * 8); 
random: :SimplePhilox srnd(&rnd); 


for (int64 i = 0; i < batch_size; ++i) { 
const int32 example = Texamples(i); 
DCHECK(@ <= example && example < vocab_size) << example; 
const int32 label = Tlabels(i); 
DCHECK(@ <= label && label < vocab_size) << label; 
auto v_in = Tw_in.chip<0>(example); 


// 正 样本 : 预测 标记 


// ”前 向 传播 : x = v_in' * v_out 

// l = log(sigmoid(x)) 

// 反 向 传播 : dl/dx = g = sigmoid(-x) 
// dl/d(v_in) = g * v_out' 
// dl/d(v_out) = v_in' * g 
{ 


auto v_out = Tw_out.chip<0>(label); 
auto dot = (v_in * v_out).sum(); 

g = (dot.exp() + 1.f).inverse(); 
Tbuf = v_out * (g() * lr); 

v_out += v_in * (g() * 1r); 


} 

// 负 样 本 : 

// ”前 向 传播 : x = v_in' * v_sample 

// 1 = log(sigmoid(-x)) 

// 反 向 传播 : dl/dx = g = -sigmoid(x) 
// dl/d(v_in) = g * v_out' 
// dl/d(v_out) = v_in' * g 


for (int j = 0; j < num_samples_; ++j) { 
const int sample = sampler_->Sample(&srnd); 
if (sample == label) continue; // Skip. 
auto v_sample = Tw_out.chip<0>(sample); 
auto dot = (v_in * v_sample).sum(); 
g = -((-dot).exp() + 1.f).inverse(); 
Tbuf += v_sample * (g() * 1r); 


v_sample += v_in * (g() * 1r); 


} 
v_in += Tbuf; 
} 

} 

private: 

int32 num_samples_ = 0; 

random: :DistributionSampler* sampler_ = nullptr; 
GuardedPhiloxRandom base_; 


}; 


REGISTER_KERNEL_BUILDER(Name("NegTrainWord2vec") .Device(DEVICE_CPU), 
NegTrainWord2vecOp) ; 


} 


第 三 步 ， 编 译 出 该 操作 的 类 文件 ， 并 做 测试 。 


我 们 需要 在 特定 的 头 文件 目录 下 编译 ， 使 用 Python 提供 的 get_include 获 取 
头 文件 目录 ， 然 后 使 用 C++ 编译 器 (如 g++) 将 操作 编译 成 动态 库 ， 如 下 ; 


TF_INC=$(python -c "import tensorflow as tf; 
print(tf.sysconfig.get_include())') 
g++ -std=c++11 -shared word2vec_ops.cc word2vec_kernels.cc -0 
word2vec_ops.so -fPIC -I 

$TF_INC -02 -D_GLIBCXX_USE_CXX11_ABI=0 


TensorFlow 的 Python APIfett T tf.load_op_library HACK INE SE, FETA 
TensorFlow 框 架 注册 操作 。load_op_library 返 回 一 个 包含 操作 和 内 核 的 Python 模 
块 。 于 是 ， 我 们 测试 如 下 : 


import tensorflow as tf 
word2vec = tf.load_op_library('word2vec_ops.so') 
with tf.Session(''): 
word2vec.skipgram_word2vec(filename='text8', batch_size=500, 
window_size=5, 
min_count=5, subsample=0.001) 


成 功 输出 了 : 


Skipgramword2vec(vocab_word=<tf.Tensor 'Skipgramword2vec:0' shape= 
<unknown> dtype= 

string>, vocab_freq=<tf.Tensor 'Skipgramword2vec:1' shape=<unknown> 
dtype=int32>, 

words_per_epoch=<tf.Tensor 'Skipgramword2vec:2' shape=<unknown> 
dtype=int64>, current_ 

epoch=<tf.Tensor 'SkipgramWord2vec:3' shape=<unknown> dtype=int32>, 
total_words_ 

processed=<tf.Tensor 'SkipgramWord2vec:4' shape=<unknown> dtype=int64>, 
examples= 

<tf.Tensor 'SkipgramWord2vec:5' shape=<unknown> dtype=int32>, labels= 
<tf.Tensor 

'Skipgramword2vec:6' shape=<unknown> dtype=int32>) 


说 明 我 们 注册 的 目 定义 操作 成 功 了 。 


4.12 小结 


本 章 主要 讲解 了 TensorFlow 的 基础 知识 ， 包 括 系统 架构 、 设 计 理 念 、 基 本 
概念 ， 以 及 常用 的 API、 神 经 元 函数 和 神经 网 络 ， 还 介绍 了 存储 与 加 载 模型 的 
方法 以 及 线程 和 队列 的 知识 〈 这 些 内 容 很 有 利于 在 第 14 章 对 分 布 式 的 理解 ) ， 
最 后 介绍 了 上 自 定义 操作 的 方法 。 本 章 是 全 书 中 最 重要 的 。 


[1] https://www.tensorflow.org/get_started/get_started 

[2] https://www.tensorflow.org/extend/architecture 
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[18] ” 产 代 码 位 于 tensorflow-1.1.0/tensorflow/python/ops/nn_ops.py° 


[19] ”本 图 出 自 Geoffrey Hinton 的 Coursera 公 开课 “Neural Networks for Machine 


Learning” 第 6 章 : https://www.coursera.org/ learn/neural-networks ° 


[20] ” 甜 估 计 束 是 利用 样本 和 矩 来 估计 忌 体 中 相应 的 参数 。 如 琳 一 个 随机 变量 X 
服从 某 种 分 布 ,，X 的 一 阶 矩 是 E (X )， 也 束 是 样本 平均 值 , X 的 二 阶 窍 是 已 (X 
2)， 也 束 是 样本 平方 的 平均 值 。 


[21] ”这 一 结论 和 图 4-7 至 图 4-9 参 考 http://sebastianruder.com/optimizing- 


gradient-descent/ ° 
[22] http://sebastianruder.com/optimizing-gradient-descent/ 


[23] ATSB https://github.com/nlintz/TensorFlow- 
Tutorials/blob/master/10_save_restore_net.py。 为 了 讲解 方便 ， 这 里 对 代码 顺序 
略微 做 了 调整 。 


[24] 


https://www.tensorflow.org/versions/r0.10/how_tos/reading_data/#preloaded_data 


第 5 章 ”TensorEFlow 源 代码 解析 


在 了 解 了 TensorFlow 的 基本 原理 、 编 程 模型 和 常用 API 后 ， 我 们 一 
起 梳理 一 下 TensorFlow 的 源 代码 ， 以 便 更 深入 地 理解 TensorFlow 的 设 
计 ， 为 今后 学 习 各 种 模型 示例 做 准备 。 


产 代码 解析 往往 是 学 习 一 [ 门 新 技术 时 ， 能 够 整体 理解 其 框 染 的 重 
要 途径 ， 相 信 本 草 会 是 很 多 程序 员 最 言 爱 的 一 章 。 


5.1 ”TensorFlow 的 目录 结构 


我 们 仍然 以 TensorFlow 1.1.0 版 本 为 例 ， 看 看 TensorFlow 的 代码 结 
构 。 


进入 tensorflow-1.1.0 目 录 ， 代 码 结构 如 下 : 


| 一 ACKNOWLEDGMENTS # TensorFlow 版 权 声 明 


| 一 ADOPTERS .md # 使 用 TensorFlow 的 人 员 或 组 织 列表 
AUTHORS # TensorFlow 作 者 的 官方 列表 

区 BUILD 

| 一 CONTRIBUTING.md # TensorF1ow 贡 献 指导 

ISSUE_TEMPLATE.md # 提 ISSUE 的 模板 

LICENSE # 版 权 许可 

README ,md 

RELEASE.md # 每 次 发 版 的 change log 

WORKSPACE # 配置 移动 端 开发 环境 

bower .BUILD 

configure 

models.BUILD 

tensorflow # 主 目录 ， 后 面 分 析 的 重点 

third_party # 第 三 方 库 ， 包 括 eigen3 (特征 运算 的 库 ， 包 括 SVD、LU 分 解 

) 、gpus (支持 cuda) 、hadoop、jpeg、1llvm、py、sycl 


ese ed 


下 


tools # 构建 cuda 支 持 
util 


其 中 ， 最 重要 的 源 代码 保存 在 tensorflow 目 录 中 。tensorflow 目 录 
的 结构 如 下 : 


必用 C++ 进 行 训 练 的 样 例 


contrib # 将 常用 功能 封装 在 一 起 的 高 级 API 
core # C++ 实现 的 主要 目录 

examples # 各 种 示例 ， 本 书后 续 讲 的 例子 主要 就 
g3doc # 针对 C++、Python 版 本 的 代码 文档 
go 
java 
opensource_only # 声明 目录 
python # Python 实现 的 主要 目录 
stream_executor # 流 处 理 
tensorboard # App、Web 支 持 ， 以 及 脚本 支持 
tensorflow.bzl 
tf_exported_symbols.lds 
tf_version_script.lds 

tools # 一 些 工 具 灯 项 

user_ops 

workspace.bzl 


= 
- 
= 
= 
= 
= 
= 
= 
上 


下 面 我 们 就 简单 介绍 儿 个 重点 目录 。 
5.1.1 contirb 


contrib 目 了 永 中 保存 的 是 将 常用 的 功能 封 痛 成 的 高 级 API。 但 是 这 个 
目录 并 不 是 官方 支持 的 ， 很 有 可 能 在 高 级 API 完 善后 被 官方 迁移 到 核 
心 的 TensorFlow 目 录 中 或 去 掉 ， 现 在 有 一 部 分 包 (package) 在 


https://github.com/tensorflow/models 有 了 更 完整 的 体现 。 这 里 重点 介绍 
JILA HE, ° 


e framework: 很 多 函数 (üget variables ` get_global_step) 都 在 这 
里 定义 ， 还 有 一 些 废弃 或 者 不 推荐 (deprecated) 的 函数 。 
layers: 这 个 包 主要 有 initializers.py ` layers.py ` optimizers.py ` 


regularizers.py、summaries.py 等 文件 。initializers.py 中 主要 是 做 变 
量 初 始 化 的 函数 。layers.py 中 有 关于 层 操作 和 权重 偏 置 变 量 的 画 
数 。optimizers.py 中 包含 损失 函数 和 global_step BH Las ke 
作 。regularizers.py 中 包含 沉 有 权重 的 正则 化 函数 。summaries.py 
中 包含 将 摘要 操作 (JL 4.4.2 节 可 视 化 API) 添加 到 
tf.GraphKeys.SUMMARIES 集 合 中 的 函数 。 

。 learn: 这 个 包 是 使 用 TensorFlow 进 行 深度 学 习 的 高 级 API， 包 括 完 
成 训练 模型 和 评估 模型 、 读 取 批 处 理 数 据 和 队列 功能 的 API 封 
装 o 

ern: 这 个 包 提 供 了 额外 的 RNN Cell， 也 束 是 对 RNN 隐 减 层 的 各 种 
改进 ， 如 LSTMBlockCell、GRUBlockCell、FusedRNNCell、 
GridLSTMCell、AttentionCellWrapper 等 。 

。 seq2seq: 这 个 包 提 供 了 建立 神经 网 络 seq2seq 层 和 损失 函数 的 操 
作 。 

e slim: TensorFlow-Slim (TF-Slim) 是 一 个 用 于 定义 、 训 练 和 评估 
TensorFlow 中 的 复杂 模型 的 轻 量 级 库 。 在 使 用 中 可 以 将 TF-Slim 与 
TensorFlow 的 原生 函数 和 tt.contrib 中 的 其 他 包 进 行 目 由 组 合 。TF- 
Slim 现在 已 经 被 逐渐 迁移 到 TensorFlow 开 源 的 Models H F, XE 
包含 了 几 种 广泛 使 用 的 卷 积 神经 网 络 图 像 分 类 模型 的 代码 ， 可 以 


从 头 训练 模型 或 者 预 训练 模型 开始 微调 。TF-Slim 非 常 有 用 ， 在 
12.1 节 中 会 用 到 。 


5.1.2 core 


这 个 目录 中 保存 的 都 是 C 语 言 的 文件 ， 是 TensorFlow 的 原始 实现 。 


| 一 BUILD 
common_runtime # 公共 运行 库 
= debug 
[— distributed_runtime # 分 布 式 执行 模块 ， 含 有 grpc session» grpc 
worker、 grpc master 等 
| 一 example 
framework # 基础 功能 模块 
区 graph 


kernels # 一 些 核心 操作 在 CPU、CUDA 内 核 上 的 实现 
lib # 公共 基础 库 


protobuf # .proto 文 件 ， 用 于 传输 时 的 结构 序列 化 
public # API 的 头 文件 目录 

user_ops 

util 


= iis 
| 一 ae forth # 操作 系统 实现 相关 文件 
| 一 


Protocol Buffers 是 谷歌 公司 创建 的 一 个 数据 序列 化 癌 
(serialization) 工具 ， 可 以 用 于 结构 化 数据 序列 化 ， 很 适合 作为 数据 
存储 或 者 RPC 数 据 交 换 的 格式 。 定 义 完 协议 缓冲 区 后 ， 将 生成 .pb.h 
和 .pb.cc 文 件 ， 其 中 定义 了 相应 的 get、set 以 及 序列 化 和 反 序 列 化 函 
数 。TensorFlow 的 几 个 核心 proto 文 件 graph_def.proto、node_def.proto、 
op_def.proto 都 你 存在 framework 目 录 中 。 构 图 时 先 构 建 graph_def， 存 
储 下 来 ， 然 后 在 实际 计算 时 再 转 成 如 图 、 市 点 、 操 作 等 的 内 存 对 象 。 


下 面 以 tensorflow-1.1.0/tensorflow/core/framework/node_def.proto 为 
例 来 说 明定 义 proto 文 件 的 过 程 。node_def.proto 定 义 中 指定 了 设备 


(device) 操作 (op) 以 及 操作 的 属性 (attr) 。 代 码 如 下 : 


syntax = "proto3"; 


package tensorflow; 

option cc_enable_arenas = true; 

option java_outer_classname = "NodeProto"; 

option java_multiple files = true; 

option java_package = "org.tensorflow. framework"; 


import "tensorflow/core/framework/attr_value.proto"; 


message NodeDef { 

string name = 1; # 操作 的 名 称 

string op = 2; # 操作 的 名 称 

repeated string input = 3; # 每 个 input 指明 了 当前 节点 来 自 哪 个 节点 的 第 
儿 个 张 量 ， 


# 格式 是 node:index 
string device = 4; # 指定 device 方 法 
map<string, AttrValue> attr = 5; # 其 中 AttrValue 又 是 另外 一 个 协议 缓 ; 


framework 目 孙 中 还 有 node_def builderh、node_def buildercc、 
node_def util.h、node def util test.cc 等 文件 ， 这 都 是 为 了 在 C++ 里 能 
操作 上 面 代码 中 定义 的 node_def.proto 的 protobuf 结构 。 


5.1.3 examples 


examples 有 目录 中 给 出 了 深度 学 习 的 一 些 例子 ， 包 括 MNIST、 
Word2vec、Deepdream、Iris、HDF5 的 一 些 例子 ， 对 入 门 非常 有 帮助 。 
此 外 ， 这 个 目录 中 还 有 TensorFlow 在 Android 系 统 上 的 移动 端 实 现 ， 以 
及 一 些 扩展 为 .ipynb 的 文档 教程 ， 可 以 用 jupyter 打 开 (使 用 方式 参见 
24.37) ° 


5.1.4 g3doc 


TensorFlow 的 文档 是 用 Markdown 在 维护 的 ， 并 存放 在 g3doc 中 。 
g3doc 目 录 可 以 认为 是 TensorFlow 的 离线 手册 ， 非 常 好 用 。 


gdoc/api_docs 目 孙 中 的 任何 内 容 都 是 从 代码 中 的 注释 生成 的 ， 不 
应 该 直接 编辑 。 脚 本 tools/docs/gen_docs.sh 是 用 来 生成 API 文 档 的 。 如 
果 无 参数 调用 ， 它 只 重新 生成 Python API 文 档 〈 即 操作 的 文档 ， 包 括 
用 Python 和 C ++ 定 义 的 ) 。 如 果 传 递 了 -a， 运 行 脚 本 时 还 会 重新 生成 
C++ API 的 文档 。 这 个 脚本 必须 从 tools/docs 目 录 调 用 ， 如 果 使 用 参数 - 


a， 需 要 安装 doxygen P] 。 
5.1.5 python 


第 4 草 中 介绍 的 很 多 函数 的 实现 都 是 在 python 这 个 目录 中 。 例 如 ， 
4.7 世 中 的 激活 函数 、 卷 积 画 数 、 池 化 函数 、 损 失 函 数 、 优 化 方法 等 。 


5.1.6 tensorboard 


tensorboard 有 目录 中 是 实现 TensorFlow 图 表 可 视 化 工具 的 代码 ， 代 码 
是 基于 Tornado H 来 实现 网 页 端 可 视 化 的 。 


5.2 ”TensorFlow 源 代码 的 学 习 方 法 


如 何 高 效 地 学 习 TensorFlow 源 代码 呢 ? 很 多 人 在 接触 TensorFlow 后 
会 目 先 问 这 个 问题 。 下 面 我 就 介绍 一 下 TensorFlow 源 代码 的 学 习 步 


TK ° 


(1) 了 解 目 己 要 研究 的 基本 领域 ， 如 图 像 分 类 、 物 体检 测 、 语 音 
识别 等 ， 了 解 对 应 这 个 领域 所 用 的 技术 ， 如 卷 积 神经 网 络 


(convolutional neural network, CNN) 和 循环 神经 网 络 (recurrent 
neural network, RNN) ， 知 道 实现 的 基本 原理 o 


(2) 尝试 运行 GitHub 上 对 应 的 基本 模型 加 ， 其 目录 结构 如 下 : 


AUTHORS 
CONTRIBUTING .md 
LICENSE 

README .md 
WORKSPACE 
autoencoder 
compression 
differential_privacy 
im2txt 
inception 

lm_1b 
namignizer 


neural_gpu 
neural_programmer 
next_frame_prediction 
resnet 

slim 


street 

swivel 

syntaxnet 
textsum 
transformer 
tutorials 
video_prediction 


如 果 人 研究 领域 是 计算 机 视觉 ， 可 以 看 代码 中 的 如 下 几 个 目录 : 
compresssion (图 像 压 缩 ) 、im2txt (图 像 描 述 ) 、inception (对 
ImageNet 数 据 集 用 Inception V3 架 构 去 训练 和 评估 ) 、resnet 〈 残 差 网 
络 ) 、slim (图 像 分 类 ) 和 street 〈 路 标识 别 或 验证 码 识别 ) 。 


如 果 研 究 领 域 是 自然 语言 处 理 ， 可 以 看 Im_lb (语言 模型 ) ` 
namignizer (起 名 字 ) 、swivel 〈 使 用 Swivel 算 法 转换 词 癌 量 ) > 


syntaxnet (分 词 和 语法 分 析 ) 、textsum (文本 摘要 ) 以 及 tutorials 目 录 
里 的 word2vec ( 词 转换 为 同 量 ) 。 


这 些 都 是 教科 书 式 的 代码 ， 看 懂 学 懂 对 今后 自己 实现 模型 大 有 本 
益 。 党 试 运行 上 述 模 型 ， 并 对 模型 进行 当 你 完整 阅读 
MNIST 或 者 CIFAR10 整 个 项 目的 逻辑 后 ， 就 会 掌握 TensorFlow 项 目 A 
构 。 


这 里 ， 我 着 重 说 一 下 slim 目 孙 。 


slim 目 孙 中 的 TF-Slim 是 图 像 分 类 的 一 个 库 ， 它 包含 用 于 定义 、 训 
练 和 评估 复杂 模型 的 轻 量 级 高 级 API。 可 以 用 于 训练 和 评估 的 几 个 广 
沁 使 用 的 CNN 图 像 分 类 模型 ， 如 lenet ` alexnet ` vgg ` inception_v1 ` 
inception_v2 、inception_v3、inception_v4、resnet_v1、resnet_Vv2 等 ， 这 


些 模 型 都 位 于 slim/nets 中 ， 具 体 如 下 : 


alexnet.py 
alexnet_test.py 
cifarnet.py 
inception. py 
inception_resnet_v2.py 
inception_resnet_v2_test.py 
inception_utils.py 
inception_v1.py 
inception_vi_test.py 
inception_v2.py 
inception_v2_test.py 
inception_v3.py 
inception_v3_test.py 
inception_v4.py 
inception_v4_test.py 
lenet.py 
nets_factory.py 
nets_factory_test.py 
overfeat.py 
overfeat_test.py 


resnet_utils.py 
resnet_v1.py 
resnet_vi_test.py 


resnet_v2.py 
resnet_v2_test.py 


= vgg.py 
vgg_test.py 


TF-Slim 包 含 的 脚本 可 以 让 人 从 头 训 练 模型 或 从 预先 训练 的 网 络 开 
台 训练 模型 并 微调 ， 这 些 脚 本 位 于 slim/scripts， 有 具体 如 下 : 


finetune_inception_v3_on_flowers.sh 
train_cifarnet_on_cifar1i0.sh 


= finetune_inception_v1_on_flowers.sh 
train_lenet_on_mnist.sh 


TF-Slim 还 包含 用 于 下 载 标准 图 像 数 据 集 ， 将 其 转换 为 TensorFlow 
支持 的 TFRecords 格 式 ， 这 些 脚 本 位 于 slim/datasets， 具 体 如 下 : 


cifar10.py 

dataset_factory.py 
dataset_utils.py 
download_and_convert_cifar10.py 
download_and_convert_flowers.py 


download_and_convert_mnist.py 
flowers.py 
imagenet .py 

L— mnist.py 


随后 可 以 轻松 地 在 任何 上 述 数据 集 上 训练 任何 模型 。 


(3) 结合 要 做 的 项 目 ， 找 到 相关 的 论文 ， 上 自己 用 TensorFlow 实 现 
这 篇 论文 的 内 容 ， 这 会 让 你 有 一 个 质 的 飞跃 。 


上 面 介 绍 的 学 习 方 法 在 本 书 “ 实 战 篇 ”中 会 再 结合 例子 进行 讲解 。 
5.3 小结 
本 章 人 简略 地 解析 了 TensorFlow 源 代码 ， 介 绍 了 它 的 主要 的 目录 结 


构 ， 以 及 一 些 模 块 的 位 置 和 功能 ， 还 介绍 了 TensorFlow 的 源 代码 学 习 
方法 ， 建 议 读者 可 以 目 己 多 去 人 研究 。 


[1] https://github.com/tensorflow/models/tree/master/slim 


[2] ”序列 化 是 指 将 对 象 的 状态 信息 转换 为 可 以 存储 或 传输 的 形式 的 过 
程 。 


[3] “内容 参考 官方 网 站 


https://www.tensorflow.org/community/documentation ° 
[4] http://www.tornadoweb.org/en/stable/ 


[5]  https://github.com/tensorflow/models 


Bom ”神经 网 络 的 发 展 及 其 TensorFlow 实 现 


卷 积 神经 网 络 (convolutional neural network, CNN) 的 演进 从 
LeNet 天 AlexNet， 再 到 VggNet、GoogLeNet， 最 后 到 ResNet， 演 进 的 方 
式 有 一 定 规律 ， 并 且 也 在 ImageNet LSVRC 竞 赛 上 用 120 万 张 图 片 、 
1000 类 标记 上 取得 了 很 好 的 成 绩 。 循 环 神经 网 络 (recurrent neural 
networks, RNN) 的 演进 从 Vanilla RNN 到 隐藏 层 结构 精巧 的 GRU 和 
LSTM， 再 到 双向 和 多 层 的 Deep Bidirectional RNN。 本 章 主要 介绍 这 些 
神经 网 络 模型 的 结构 和 演化 脉络 ， 并 且 党 试用 TensorFlow 去 构建 这 些 网 
络 ， 为 读者 将 来 目 己 设计 网 络 或 者 根据 读 到 的 论文 构建 网 络 模型 打下 
基础 。 


6.1 卷 积 神经 网 络 


卷 积 神经 网 络 (CNN) ， 属 于 人 工 神 经 网 络 的 一 种 ， 它 的 权 值 共 
= (weight sharing) 的 网 络 结构 显著 降低 了 模型 的 复杂 度 ， 减 少 了 权 
值 的 数量 ， 是 目前 语 首 分 析 和 图 像 识 别 领 域 研究 热点 。 


在 传统 的 识别 算法 中 ， 我 们 需要 对 输入 的 数据 进行 特征 提取 和 数 
据 重 建 ， 而 卷 积 神经 网 络 可 以 直接 将 图 片 作 为 网 络 的 输入 ， 上 自动 提取 
特征 ， 并 且 对 图 片 的 变形 《如 平移 、 比 例 缩 放 、 倾 斜 ) 等 具有 高 度 不 


s 


那 什么 是 卷 积 (convolution) Ve? 卷 积 是 泛 函 分 析 中 的 一 种 积分 
SPREE AE, EDN Tene Ag 生成 第 三 个 函数 的 一 种 数学 算 
T. KEKS Sg 经 过 翻转 和 平移 的 重 县 部 分 的 面积 。% 设 f (x ) 和 g (x 
ER, ENS, BA Se SORA BY Sg 的 着 


积 : 
/ fliT)jglz — E)dr 


我 们 知道 ， 神 经 网 络 (neural networks, NN) 的 基本 组 成 包括 输 
入 层 、 隐 藏 层 、 输 出 层 。 卷 积 神经 网 络 的 特点 在 于 隐藏 层 分 为 卷 积 层 
和 池 化 层 (pooling layer， 又 叫 下 采样 层 ) 。 卷 积 层 通过 一 块 块 卷 积 核 

(conventional kernel) 在 原始 图 像 上 平移 来 提取 特征 ， 每 一 个 特征 就 
是 一 个 特征 映射 ， 而 池 化 层 通 过 汇 取 特 征 后 黎 跑 参数 来 减少 要 学 习 的 
参数 ， 降 低 网 络 的 复杂 度 ， 池 化 层 最 常见 的 包括 最 大 值 池 化 (max 
pooling) 和 平均 值 池 化 (average pooling) ， 如 图 6-1 所 示 。 


卷 积 术语 K= 输 出 深度 


图 6-1 [H 


卷 积 核 在 提取 特征 映射 时 的 动作 称 为 padding， 其 有 两 种 方式 ， 即 
SAME 和 VALID。 由 于 移动 步 长 (Stride) 不 一 定 能 整除 整 张 图 的 像素 
宽度 ， 我 们 把 不 越过 边缘 取样 称 为 Valid Padding， 取 样 的 面积 小 于 输入 
图 像 的 像素 宽度 ; 越过 边缘 取样 称 为 Same Padding， 取 样 的 面积 和 输入 
图 像 的 像素 宽度 一 致 。 在 图 6-2 中 ， 左 边 为 Valid Padding， 右 边 为 Same 
Padding ° 


[4 9 
卷 积 术语 VALiD，PADDING 
PRE ‘SAME’ PADDING 


图 6-2 [2] 


关于 卷 积 神经 网 络 的 推导 和 实现 可 参考 相关 论文 B] 。 


6.2 ”着 积 神 经 网 络 发 展 


神经 网 络 的 发 展 过 程 如 图 6-3 所 示 。 本 图 参考 了 中 国 科 学 院 计 算 技 
术 研 究 所 刘 昕 博士 整理 的 卷 积 神 经 网 络 结构 演化 的 历史 。 


网 络 加 深 


VGG19 二 者 结合 
增强 卷 积 层 的 功能 
Incption V3 
Incption V4 


从 分 类 任务 到 检测 任务 


Dropart 
ReLu 
GPU+ 大 数据 


增加 新 的 功能 模块 


图 6-3 


卷 积 神经 网 络 发 展 的 起 点 是 神经 认 知 机 (neocognitron) 模型 ， 当 
时 已 经 出 现 了 卷 积 结构 。 第 一 个 卷 积 神经 网 络 模型 LeCun 诞 生 于 1989 
年 ， 其 发 明 人 是 LeCun。 学 习 卷 积 神经 网 络 的 读本 是 Lecun 的 论文 多 ， 
在 这 篇 论文 里 面 较为 详尽 地 解释 了 什么 是 卷 积 神经 网 络 ， 并 且 阅 述 了 
为 什么 要 卷 积 ， 为 什么 要 降 采 样 ， 径 向 基 画 数 (radial basis function, 


RBF) 怎么 用 ， 等 等 。 


1998 年 LeCun 提 出 了 LeNet， 但 随后 卷 积 神经 网 络 的 锋 世 逐渐 被 
SVM 等 手工 设计 的 特征 的 分 类 属 盖 过 。 随 着 ReLU 和 Dropout 的 提出 ， 
以 及 GPU 和 大 数据 这 来 的 历史 机 遇 ， 卷 积 神经 网 络 在 2012 年 迎 来 了 历 
史 性 突破 一 一 AlexNet 。 


如 图 6-3 所 示 ，AlexNet 之 后 卷 积 神经 网 络 的 演化 过 程 主要 有 4 个 方 
回 的 演化 : 一 个 是 网 络 加 深 ， 二 是 增强 卷 积 层 的 功能 ， 三 是 从 分 类 任 
务 到 检测 任务 ， 四 是 增加 新 的 功能 模块 。 


下 面 就 简单 讲述 各 个 阶段 的 几 个 网 络 的 结构 及 特点 。 
6.2.1 ”网络 加 深 


1. LeNet 
LeNet 的 论文 详 见 


http://vision.stanford.edu/cs598_spring07/papers/Lecun98.pdf 。LeNet 包 含 
的 组 件 如 下 。 


。 输 入 层 : 32x32 ° 
。 卷 积 层 : 3 个 。 
。 降 采 样 层 : 2 个 。 


° 全 连接 层 : 1 个 。 
。 输出 层 (高 斯 连接 ) : 10 个 类 别 〈 数 字 0~-9 的 概率 ) 。 
LeNet 的 网 络 结构 如 图 6-4 所 示 。 


。 有 和 C3:f. maps 16@10X 10 
输入 ve MURE eee S4:f.maps 16@5 X 5 
32% 32 @ S2:f.maps 


Tr 


卷 积 下 采样 卷 积 下 采样 


下 面 就 介绍 一 下 各 个 层 的 用 途 及 意义 。 


(1) 输入 层 。 输 入 图 像 尺 寸 为 32x32。 这 要 比 MNIST 数 据 集中 的 
字母 (28x28) 还 大 ， 即 对 图 像 做 了 预 处 理 reshape 操 作 。 这 样 做 的 目的 
是 希望 潜在 的 明显 特征 ， 如 笔画 断 续 、 角 点 ， 能 够 出 现在 最 高 层 特征 
监测 卷 积 核 的 中 心 。 


(2) 卷 积 层 (C1, C3, C5) 。 卷 积 运算 的 主要 目的 是 使 原 信号 特 
征 增强 ， 并 且 降 低 噪音 。 在 一 个 可 视 化 的 在 线 演 示 示 例 品 中 ， 我 们 可 
UA BAERE PERT A I], QO] 6-5 所 示 。 


(3) 下 采样 层 (S2, S4) 。 下 采样 层 主 要 是 想 降低 网 络 训练 参数 
及 模型 的 过 拟 合 程 度 。 通 常 有 以 下 两 种 方式 。 


。 RAWE (max pooling) : 在 选中 区 域 中 找 最 大 的 值 作为 采样 后 
的 值 。 

。 平 均值 池 化 (mean pooling) : 把 选中 的 区 域 中 的 平均 值 作为 采样 
后 的 值 。 


(4) 全 连接 层 (F6) 。F6 是 全 连接 层 ， 计 算 输入 向 量 和 权重 向 量 
的 点 积 ， 再 加 上 一 个 偶 置 。 随 后 将 其 传递 给 sigmoid 函 效 ， 产 生 单 元 i 的 
一 个 状态 。 


(5) 输出 层 。 输 出 层 由 欧式 径 向 基 画 数 (Euclidean radial basis 
function) 单元 组 成 ， 每 个 类 别 (数字 的 0~~9) WD —-MaIAIZE ER BA 
元 ， 每 个 单元 有 84 个 输入 。 世 就 是 说 ， 每 个 输出 RBF 单 元 计算 输入 癌 
量 和 该 类 别 标记 辣 量 之 间 的 欧式 距离 。 距 离 越 远 ，RBF 输 出 越 大 。 


经 过 测试 ， 采 用 LeNet，6 万 张 原始 图 片 的 数据 集 ， 错 误 率 能 够 降 
低 到 0.95%; 54 万 张 人 工 处 理 的 失真 数据 集合 并 上 6 万 张 原始 图 片 的 数 
据 集 ， 错 误 率 能 够 降低 到 0.8% © [9 


接着 ,历史 转折 发 生 在 2012 年 ，Geoffrey Hinton 和 他 的 学 生 Alex 
Krizhevsky 在 ImageNet 竞 赛 中 一 举 夺 得 网 像 分 类 的 冠军 ， 刷 新 了 图 像 分 
类 的 记录 ， 通 过 比赛 回应 了 对 卷 积 方法 的 质疑 。 比 赛 中 他 们 所 用 网 络 
称 为 AlexNet ° 
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(c) 边缘 卷 积 


图 6-5 
2. AlexNet 

AlexNet 在 2012 年 的 ImageNet 图 像 分 类 竞赛 中 ，Top-5 错 误 率 为 
15.3%; 2011 年 的 冠军 是 采用 基于 传统 浅 层 模型 方法 ，Top-5 错 误 率 为 
25.8%。AlexNet 也 远 远 超过 2012 年 竞赛 的 第 二 名 ， 错 误 率 为 26.2% 。 
AlexNet 的 论文 详 见 Alex Krizhevsky ` Ilya Sutskever 和 Geoffrey E. 


Hinton 的 《ImageNet Classification with Deep Convolutional Neural 
Networks) !7! o 


AlexNet 的 结构 如 图 6-6 所 示 。 图 中 明确 显示 了 两 个 GPU 之 间 的 职员 


划分 :一 个 GPU 运 行 图 中 顶部 的 层次 部 分 ， 男 一 个 GPU 运 行 图 中 压 部 
的 层次 部 分 。GPU 之 间 仅 在 某 些 层 互相 通信 。 


128 最 大 


池 化 2048 2048 


图 6-6 


AlexNet 由 5 个 卷 积 层 、5 个 池 化 层 、3 个 全 连接 层 ， 大 约 5000 万 个 
可 调 参 数组 成 。 最 后 一 个 全 连接 层 的 输出 被 送 到 一 个 1000 维 的 softmax 
层 ， 产 生 一 个 覆盖 1000 类 标记 的 分 布 。 


AlexNet 之 所 以 能 够 成 功 ， 让 深度 学 习 卷 积 的 方法 重 回 到 人 们 视 
野 ， 原 因 在 于 使 用 了 如 下 方法 。 


。 防止 过 拟 合 : Dropout、 数 据 增强 (data augmentation) 。 

。 非 线性 激活 函数 : ReLU 。 

。 大 数据 训练 : 120 万 〈 百 万 级 ) ImageNet 图 像 数 据 。 

e GPU 实现 、LRN (local responce normalization) 规范 化 层 的 使 用 。 


要 学 习 如 此 多 的 参数 ， 并 且 防 止 过 拟 合 ， 可 以 采用 两 种 方法 : 数 
据 增 强 和 Dropout。 


(1) 数据 增强 : 增加 训练 数据 是 避免 过 拟 合 的 好 方法 ， 并 且 能 提 
升 算 法 的 准确 率 。 当 训练 数据 有 限 的 时 候 ， 可 以 通过 一 些 变换 从 已 有 
的 训练 数据 集中 生成 一 些 新 数据 ， 来 扩大 训练 数据 量 。 通 第 采用 的 变 
形 方 式 以 下 几 种 ， 具 体 效 末 如 图 6-7 所 示 。 


水 平 翻 转 图 像 (又 称 反 射 变化 ，flip) 。 

从 原始 图 像 (大 小 为 256x256) 随机 地 平移 变换 (crop) 出 一 些 图 
像 (如 大 小 为 224x224) 。 

给 图 像 增加 一 些 随机 的 光照 (又 称 光照 、 彩 色 变 换 、 颜 色 拌 

动 ) 。 


(2) Dropout。AlexNet 做 的 是 以 0.5 的 概率 将 每 个 隐 层 神经 元 的 输 
出 设置 为 0。 以 这 种 方式 被 抑制 的 神经 元 既 不 参与 前 向 传播 ， 也 不 参与 
反 疝 传播 。 因 此， 每 次 输入 一 个 样本 ， 束 相当 于 该 促 经 网 络 笑 试 了 一 
个 新 结构 ， 但 是 所 有 这 些 结构 之 间 共 享 权 重 。 因 为 神经 元 不 能 依赖 于 
其 他 神经 元 而 存在 ， 所 以 这 种 技术 降低 了 神经 元 复杂 的 互 适 应 关系 。 


因此 ， 网 络 需 要 被 迫 学 习 更 为 健壮 的 特征 ， 这 些 特征 在 结合 其 他 神经 
元 的 一 些 不 同 随机 子 集 时 很 有 用 。 如 果 没 有 Dropout， 我 们 的 网 络 会 表 
现 出 大 量 的 过 拟 合 。Dropout 使 收敛 所 需 的 欠 代 次 数 大 致 增加 了 一 倍 。 


Ca) 水 平 翻转 Cb) 随机 平移 变换 Co) 颜色 抖动 


图 6-7 


Alex 用 非 线性 激活 函数 relu 代 替 了 sigmoid， 发 现 得 到 的 SGD 的 收 金 
速度 会 比 sigmoid/tanh 快 很 多 。 

单个 GTX 580 GPU 只 有 3 GB 内 存 ， 因 此 在 其 上 训练 的 数据 规模 有 
限 。 从 AlexNet 结 构图 可 以 看 出 ， 它 将 网 络 分 布 在 两 个 GPU 上 ， 并 且 能 
够 直接 从 男 一 个 GPU 的 内 存 中 读 出 和 写 入 ， 不 需要 通过 主机 内 存 ， 极 
大 地 增加 了 训练 的 规模 。 


6.2.2 ”增强 卷 积 层 的 功能 
1. VGGNet 


VGGNet 可 以 看 成 是 加 深 版 本 的 AlexNet， 参 见 Karen Simonyan 和 
Andrew Zisserman 的 论文 《Very Deep Convolutional Networks for Large- 


Scale Visual Recognition) [8] o 


VGGNet 和 下 文中 要 提 到 的 GoogLeNet 是 2014 年 ImageNet 竞 赛 的 第 
二 名 和 第 一 名 ，Top-5 错 误 率 分 别 为 7.32% 和 6.66% P! ° VGGNetth 5 
个 卷 积 组 、2 层 全 连接 图 像 特征 、1 层 全 连接 分 类 特征 ， 可 以 看 作 和 
AlexNet 一 样 总 共 8 个 部 分 。 根 据 前 5 个 卷 积 组 ，VGGNet 论 文中 给 出 了 A 
~ 这 5 种 配置 ， 如 图 6-8 所 示 。 卷 积 层 数 从 8 (A 配置 到 16 (EACH) 
递增 。VGGNet 不 同 于 AlexNet 的 地 方 是 : VGGNet 使 用 的 层 更 多 ， 通 各 
有 16~19 层 ， 而 AlexNet 只 有 8 层 。VGGNet 的 结构 如 图 6-8 所 示 。 


从 VGGNet 的 论文 中 可 以 看 出 ， 随 着 卷 积 层 从 8 到 16 的 一 步 步 加 
深 ， 通 过 加 深 卷 积 层 数 已 经 到 达 了 准确 率 提 升 的 瓶颈 。 从 论文 中 给 出 
的 结果 (如 图 6-9 所 示 ) 可 以 看 到 ， 再 加 深 模 型 ， 错 误 率 已 经 很 难 再 降 
{KT ° 
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图 6-9 


2. GoogLeNet 


提 到 GoogleNet， 我 们 首先 要 说 起 NIN (Network in Network) 的 思 
想 UO] ( 详 见 Min Lin 和 Qiang Chen 和 Shuicheng Yan 的 论文 《Network In 
Network》) ， 它 对 传统 的 卷 积 方法 做 了 两 点 改进 : 将 原来 的 线性 卷 积 
层 (linear convolution layer) 变 为 多 层 感 知 卷 积 层 (multilayer 
perceptron) ; 将 全 连接 层 的 改进 为 全 局 平均 池 化 。 这 使 得 卷 积 神经 网 
络 同 男 一 个 演化 分 文 一 一 增强 卷 积 模块 的 功能 的 方向 演化 ，2014 年 诞 
生 了 GoogLeNet ( 即 Inception V1) ° 谷歌 公 司 提出 的 GoogLeNet 是 2014 
年 ILSVRC 挑 战 赛 的 冠军 ， 它 将 Top-5 的 错误 率 降 低 到 了 6.67% 。 
GoogLeNet 的 更 多 内 容 详 见 Christian Szegedy 和 Wei Liu 等 人 的 论文 

«Going Deeper with Convolutions》 HH o 


GoogLeNet 的 网 络 的 中 段 结构 如 图 6-10 所 示 。 
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图 6-10 


论文 中 介绍 了 如 何 发 现 Inception 模 型 的 最 优 结 构 ， 如 图 6-11 所 示 。 
原始 的 设计 见 图 6-11 的 左 侧 ， 使 用 1x1、3x3、5x5 的 卷 积 核对 应 图 像 的 
区 域 ， 然 后 连接 起 来 到 全 连接 层 。 降 维 后 的 设计 如 图 6-11 的 右 侧 ， 使 用 
1x1 的 卷 积 核 进行 降 维 ， 在 全 连接 层 将 1x1、3x3、5x5 的 卷 积 结果 连接 
起 来 。 这 样 做 使 网 络 的 宽度 和 深度 均 可 扩大 。 使 用 了 Inception 模 型 的 结 
构 可 以 有 2~3 倍 的 加 速 。 


图 6-11 


GoogLeNet 的 主要 思想 是 围绕 “深度 "和 “宽度 ”去 实现 的 。 


(1) 深度 。 层 数 更 深 ， 论 文中 采用 了 22 层 。 为 了 避免 梯度 消失 问 
题 ，GoogLeNet 巧 妙 地 在 不 同 深度 处 增加 了 两 个 损失 函数 来 避免 反 向 传 
播 时 梯度 消失 的 现象 。 


(2) 宽度 。 增 加 了 多 种 大 小 的 卷 积 核 ， 如 1x1、3x3、5x5， 但 并 
没有 将 这 些 全 都 用 在 特征 映射 上 ， 都 结合 起 来 的 特征 映射 厚度 将 会 很 
大 。 但 十 采用 了 图 6-11 右 侧 所 示 的 降 维 的 Inception 模 型 ， 在 3x3、5x5 卷 
积 前 ， 和 最 大 池 化 后 都 分 别 加 上 了 1x1 的 卷 积 核 ， 起 到 了 降低 特征 映射 
厚度 的 作用 。 


3. ResNet 


把 网 络 加 深 和 增强 卷 积 模块 功能 两 个 演化 方向 相 结合 ， 诞 生 了 
ResNet (Residual Network， 残 差 网 络 ) ° ReNetz=20154FILSVRCS Z 
中 不 依赖 外 部 数据 的 物体 检测 和 物体 识别 两 个 项 目的 冠军 ， 是 由 MSRA 
何 凯 明 团 队 提 出 的 ， 训 练 深 达 152 层 的 网 络 。 同 时 ，MSRA 也 是 2015 年 
ImageNet 竞 赛 的 大 赢家 ， 在 分 类 、 检 测 、 定 位 以 及 COCO 数 据 集 上 的 检 
测 (detection) 和 分 隔 (segmentation) ， 都 获得 了 冠军 。 图 6-12 展示 
的 是 一 个 34 层 的 ResNet 的 结构 。 残 差 网 络 的 更 多 内 容 详 见 Kaiming 
He、Xiangyu Zhang、Shaoqing Ren 和 Jian Sun 的 论文 《Deep Residual 


Learning for Image Recognition) lH% o 


按照 一 般 的 经 验 ， 只 要 没有 发 生 梯 度 消 失 或 者 梯度 爆炸 ， 并 且 不 
过 拟 合 ， 网 络 应 该 是 越 深 越 好 。 但 是 ， 论 文 作者 在 CIFAR10 上 训练 网 络 
时 却 发 现 ， 层 数 从 20 层 增加 到 56 层 ， 错 误 率 上 升 了 ， 准 确 率 下 降 了 ， 
如 图 6-13 所 示 。 


34 层 残 差 网 络 
图 像 


7X7 conv,64,/2 


pool,/2 


3X3conv128] 
3X3 conv 128 
3X3 conv,128 


3X3 conv.256/2 SS 
3X3 conv.256 | _- 


avg pool 


fe 1000 


图 6-12 
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图 6-13 


这 种 情况 被 称 为 网 络 退 化 (network degradation) 。 为 此 ResNet 中 
引入 了 一 个 shortcut 结 构 〈 指 图 6-12 中 卷 积 层 之 间 的 带 箭 头 的 曲线 部 
分 ) ， 将 输入 跳 层 传递 与 卷 积 的 结果 相 加 。 


关于 ResNet 中 残 差 (residual) 的 含义 ， 其 实 是 如 果 能 用 几 层 网 络 
去 逼近 一 个 复杂 的 非 线 性 映 喘 末 (x ) 来 预测 图 厂 的 分 类 ， 那 么 同样 可 以 
FSU LEZ AEE RE BL (residual function) F (x)= H (x )-x 
, FFA BAIA TOE BR E he Be GH (x ) iBT FE o 


6.2.3 ”从 分 类 任务 到 检测 任务 


从 分 类 任务 到 检测 任务 这 个 演化 方向 经 历 了 从 R-CNN 到 Fast R- 
CNN， 再 到 Faster R-CNN 的 演化 。 


R-CNN 可 以 看 作 是 Region Proposal Networks l! (RPN) 和 CNN 结 
合 的 力作 。 在 ImageNet、VOC、MSCOCO 数 据 集 上 都 曾经 取得 过 很 好 
的 效果 。 但 它 的 主要 缺点 是 重复 计算 ， 因 为 最 后 建议 的 区 域 (region) 


有 几 千 个 ， 多 数 都 是 互相 重 王 的 ， 重 县 的 部 分 会 被 多 次 重复 提取 特 
人 


Fast R-CNN 是 R-CNN 的 加 速 版 本 ， 将 最 后 建议 的 区 域 映射 到 CNN 
的 最 后 一 个 卷 积 层 的 特征 映射 上 ， 这 样 一 张 图 片 只 需要 提取 一 次 特 
征 ， 大 大 提高 了 速度 。 但 Fast R-CNN 的 速度 瓶颈 在 RPN E ° HESR, Fast 
R-CNN 文 持 多 类 物体 的 同时 检测 ， 其 行人 与 车 辆 检测 技术 就 是 汽车 高 
级 辅助 驾驶 系统 的 关键 技术 之 一 。 


Fater-R-CNN 将 RPN 也 交 给 CNN 来 做 ， 于 是 速度 更 快 ， 可 以 达到 实 
时 。 详 见 Shaoqing Ren ` Kaiming He ` Ross Girshick 和 Jian Sun 的 论文 
《Faster R-CNN: Towards Real-Time Object Detection with Region 
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关于 检测 任务 如 图 片 目标 检测 、 视 频 目标 检测 (VID) 的 更 多 资料 
请 读者 自行 查阅 。 
6.2.4 ”增加 新 的 功能 模块 

增加 新 的 功能 模块 这 个 演化 方向 主要 涉及 FCN ( 反 卷 积 ) > 


STNet、CNN 与 RNN/LSTM 的 混合 染 构 。 这 部 分 涉及 的 知识 较 深 ， 更 多 
资料 请 读者 自行 查阅 。 


6.3 ”MNIST 的 AlexNet 实 现 


接 下 来 我 们 就 斌 试用 TensorFlow 来 构建 一 个 网 络 模型 (这 里 以 
AlexNet 为 例 ) 。 构 建 好 模型 后 ， 使 用 MNIST 数 据 来 看 看 训练 结果 如 
何 。 


现在 我 束 一 步 步 介 绍 如 何 将 一 个 好 的 开源 模型 (如 AlexNet) 在 
TensorFlow 上 实现 。MNIST 在 TensorFlow 的 例子 中 是 用 CNN 去 训练 的 ， 
而 我 们 把 原来 普通 的 CNN 更 改 成 AlexNet。 这 里 我 主要 是 参考 代码 
https://github.com/aymericdamien/TensorFlow- 
Examples/blob/master/examples/ 
3_NeuralNetworks/convolutional_network.py 和 
https://github.com/tensorflow/models/blob/master/ 
tutorials/image/alexnet/alexnet_benchmark.py ， 然 后 根据 AlexNet 的 网 络 
结构 图 来 实现 。 


同时 ， 一 次 完整 的 训练 模型 和 评估 模型 的 过 程 一 般 分 为 3 个 步 又 : 
加 载 数据 ， 定 义 网 络 模型 ， 训 练 模型 和 评估 模型 。 接 下 来 就 分 成 这 3 个 
部 分 讲解 我 们 的 代码 。 
6.3.1 ”加 载 数 据 


在 加 载 数据 的 过 程 中 ， 我 们 还 要 定义 模型 的 超 参 数 、 模 型 所 用 的 
网 络 的 参数 以 及 数据 的 输入 。 如 下 : 


import tensorflow as tf 


# 输入 数据 
from tensorflow.examples.tutorials.mnist import input_data 
mnist = input_data.read_data_sets("/tmp/data/", one_hot=True) 


# 定义 网 络 的 超 参 数 
learning_rate = 0.001 
training _iters = 200000 
batch_size = 128 
display_step = 10 


# 定义 网 络 的 参数 
n_input = 784 # 输入 的 维度 (img shape: 28x28) 
n_classes = 10 # 标记 的 维度 (0-9 digits) 


dropout = 0.75 # Dropout 的 概率 ， 输 出 的 可 能 性 


输入 占 位 符 

= tf.placeholder(tf.float32, [None, n_input]) 

= tf.placeholder(tf.float32, [None, n_classes]) 
eep_prob = tf.placeholder(tf.float32) #dropout 


# 
X 
y= 
k 


6.3.2 ”构建 网 络 模型 


接 下 来 我 们 定义 AlexNet 需 要 用 到 的 卷 积 、 池 化 和 规范 化 操作 。 为 
了 简单 ， 我 们 将 这 些 功 能 封 猴 起 来 。 人 代码 如 下 : 


# 定义 卷 积 操作 
def conv2d(name, x, W, b, strides=1): 

x = tf.nn.conv2d(x, W, strides=[1, strides, strides, 1], 
padding='SAME' ) 

x = tf.nn.bias_add(x, b) 

return tf.nn.relu(x, name=name) # 使 用 relLu 激 活 函 数 


# 定义 池 化 层 操 作 
def maxpool2d(name, x, k=2): 
return tf.nn.max_pool(x, ksize=[1, k, k, 1], strides=[1, k, k, 


1], 
padding='SAME', name=name ) 


# 规范 化 操作 
def norm(name, 1_input, lsize=4): 
return tf.nn.1lrn(l_input, lsize, bias=1.0, alpha=0.001 / 9.0, 
beta=0.75, name=name) 


定义 所 有 的 网 络 参数 〈 网 络 参 数 的 具体 值 详 见 AlexNet 的 结构 图 ， 
参见 图 6-6) ， 如 下 : 


` 


# 定义 所 有 的 网 络 参数 


Worghts = = 
'wc1': tf.Variable(tf.random_normal([11, 11, 1, 96]) 
'wc2': tf.Variable(tf.random_normal([5, 5, 96, 256]) 
'wc3': tf.Variable(tf.random_normal([3, 3, 256, 384] 
'wc4': tf.Variable(tf.random_normal([3, 3 
'wc5': tf.Variable(tf.random_normal([3, 3 


'wd1': tf.Variable(tf.random_normal([4*4*256, 4096])), 
'wd2': tf.Variable(tf.random_normal([4096, 4096])), 
‘out': tf.Variable(tf.random_normal([4096, 10])) 


"bc1': tf.Variable(tf.random_normal([96])), 
"bc2': tf.Variable(tf.random_normal( [256] )) 
'bc3': tf.Variable(tf.random_normal([384])) 
'bc4': tf.Variable(tf.random_normal( [384] ) ) 
"bc5': tf.Variable(tf.random_normal( [256] ) ) 
"bd1': tf.Variable(tf.random_normal([4096])), 

'bd2': tf.Variable(tf.random_normal([4096])), 

‘out': tf.Variable(tf.random_normal([n_classes] ) ) 


F 
F 
了 
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定义 AlexNet 的 网 络 模型 : 


# 定义 整个 网 


def alex_net(x, weights, biases, dropout): 
# Reshape input picture 
x = tf.reshape(x, shape=[-1, 28, 28, 1]) 


# 第 一 层 卷 积 
# 卷 积 


convi = conv2d('convi', x, weights['wc1'], biases['bc1i']) 


pool1 = maxpool2d('pooli', convi, k=2) 
# 规范 化 

norm1 = norm('normi', pooli, lsize=4) 
# 第 二 层 卷 积 

H 卷 积 


conv2 = conv2d('conv2', convi, weights['wc2'], biases['bc2']) 


# 最 大 池 化 (向 下 采样 


WY 


# 规范 化 


norm2 norm('norm2', pool2, 1lsize=4) 


# 第 三 层 卷 积 

H 卷 积 

conv3 = conv2d('conv3', norm2, weights['wc3'], biases['bc3']) 
# TORE 
pool3 = maxpool2d('pool3', conv3, k=2) 
# 规范 化 

norm3 = norm('norm3', pool3, 1size=4) 


# 第 四 层 卷 积 

conv4 = conv2d('conv4', norm3, weights['wc4'], biases['bc4']) 

# 第 五 层 卷 积 

conv5 = conv2d('conv5', norm3, weights['wc5'], biases['bc5']) 

# 下 采样 

pool5 = maxpool2d('pool5', conv5, k=2) 

# 规范 化 

norm5 = norm('norm5', pool5, lsize=4) 

H 全 连接 层 1 

fc1 = tf.reshape(norm5, [-1, weights['wdi'].get_shape().as_list() 
[9]] ) 


fc1 = tf.add(tf.matmul(fc1, weights['wdi']), biases['bd1']) 
fc1 = tf.nn.relu(fc1) 

# dropout 

fc1 = tf.nn.dropout(fci, dropout) 


# 全 连接 层 2 

fc2 = tf.reshape(fci, [-1, weights['wd1'].get_shape().as_list() 
[9]] ) 

fc2 = tf.add(tf.matmul(fc2, weights['wdi']), biases['bd1']) 

fc2 = tf.nn.relu(fc2) 

# dropout 

fc2 = tf.nn.dropout(fc2, dropout) 

# 输出 层 


out = tf.add(tf.matmul(fc2, weights['out']), biases['out']) 
return out 


MERA EMMA BAA has, HEEE KN: 


# PEA 


= alex_net(x, weights, biases, keep_prob) 


# RE SGA ERA tas 
cost = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(pred, 


y)) | 
optimizer = 
tf.train.AdamOptimizer(learning_rate=learning_rate) .minimize(cost) 


# 评估 画 数 
correct_pred = tf.equal(tf.argmax(pred, 1), tf.argmax(y, 1)) 
accuracy = tf.reduce_mean(tf.cast(correct_pred, tf.float32) ) 


6.3.3 ”训练 模型 和 评估 模型 
训练 模型 和 评估 模型 的 代码 如 下 : 


# 初始 化 变量 
init = tf.global_variables_initializer() 


with tf.Session() as sess: 
sess.run(init) 
step = 1 
# 开始 训练 ， 直 到 达到 training_iters， 即 200000 
while step * batch_size < training_iters: 
batch_x, batch_y = mnist.train.next_batch(batch_size) 
sess.run(optimizer, feed_dict={x: batch_x, y: batch_y, 
keep_prob: dropout}) 
if step % display_step == 0: 
# 计算 损失 值 和 准确 度 ， 输 出 
loss, acc = sess.run([cost, accuracy], feed_dict={x: 
batch_x, 


y: batch_y, 
keep_prob: 1.}) 
print("Iter " + str(step*batch_size) + ", Minibatch Loss= " 
+ \ 
"f:.6f}".format(loss) + ", Training Accuracy= " + \ 
"f:.5F}". format (acc) ) 
step += 1 
print("Optimization Finished!") 


# 计算 测试 集 的 准确 度 
print("Testing Accuracy:", \ 
sess.run(accuracy, feed_dict={x: mnist.test.images[:256], 
y: mnist.test.labels[:256], 
keep_prob: 1.})) 


输出 结果 如 下 : 


Iter 1280, Minibatch Loss= 397151.531250, Training Accuracy= 
0.43750 
Iter 2560, Minibatch Loss= 358224.781250, Training Accuracy= 


0.48438 
Iter 3840, Minibatch Loss= 208550.218750, Training Accuracy= 
0.70312 


我 们 也 可 以 像 实 现 AlexNet 的 模型 这 样 ， 用 TensorFlow 实 现 其 他 网 
2% (如 VGGNet、GoogLeNet、ResNet) ， 上 有 具体 实 现 的 步骤 我 们 总 结 如 
下 : 


(1) 仔细 研读 该 网 络 的 论文 ， 理 解 每 一 层 的 输入 /输出 值 以 及 网 络 
结构 ; 


(2) 按照 加 载 数据 ， 定 义 网 络 模型 ， 训 练 模型 和 评估 模型 这 样 的 
步骤 实现 网 络 。 


读者 可 以 从 简单 的 VGGNet 开 始 动手 试 试 。 
https://github.com/tensorflow/models/tree/master/ slim/nets 有 所 有 这 几 个 
经 典 网 络 的 实现 方式 。 


6.4 ”循环 神经 网 络 US! 


循环 神经 网 络 主要 是 目 然 语言 处 理 (natural language processing, 
NLP) 应 用 的 一 种 网 络 模 型 。 它 不 同 于 传统 的 前 馈 神 经 网 络 (feed- 
forward neural network, FNN) ， 循 环 神经 网 络 在 网 络 中 引入 了 定性 循 
环 ， 使 信号 从 一 个 神经 元 传递 到 另 一 个 神经 元 并 不 会 马上 消失 ， 而 是 
继续 存活 。 这 束 是 循环 神经 网 络 名 称 的 来 历 。 


在 传统 的 神经 网 络 中 ， 输 入 层 到 输出 层 的 每 层 直 接 是 全 连接 的 ， 
但 是 层 内 部 的 神经 元 彼此 之 则 没有 连接 。 这 种 网 络 结构 应 用 到 文本 处 
理 时 却 有 难度 。 例 如 ， 我 们 要 预测 某 个 单词 的 下 一 个 单词 是 什么 ， 就 
需要 用 到 前 面 的 单词 。 循 环 神经 网 络 的 解决 方式 是 ， 隐 藏 层 的 输入 不 
仅 包括 上 一 层 的 输出 ， 还 包括 上 一 时 刻 该 隐藏 层 的 输出 。 理 论 上 ， 循 


环 神经 网 络 能 够 包含 前 面 的 任意 多 个 时 刻 的 状态 ， 但 实践 中 ， 为 了 降 
低 训练 的 复杂 性 ， 一 般 只 处 理 前 面 几 个 状态 的 输出 。 


循环 神经 网 络 的 特点 在 于 它 是 按时 间 顺 序 展开 的 ， 下 一 步 会 受 本 
步 处 理 的 影响 ， 网 络 模型 如 网 6-14 所 示 。 在 计算 时 间 为 2 的 那 步 时 ， 输 
入 层 和 前 一 步 (时 间 为 1) 的 数据 都 会 对 时 间 为 2 的 那 步 的 输出 值 有 影 
啊 。 


输出 层 


隐藏 层 


输入 层 


时 间 1 2 3 4 5 


图 6-14 [16] 


循环 神经 网 络 的 训练 也 是 使 用 误差 反 向 传播 (backpropagation, 
BP) 算法 ， 并 且 参 数 w1、w2 和 w3 是 共享 的 。 但 是 ， 其 在 反 回 传播 
中 ， 不 仅 依 赖 当前 层 的 网 络 ， 还 依赖 前 面 奉 干 层 的 网 络 ， 这 种 算法 称 
为 随时 间 反 向 传播 ” (backpropagation through time, BPTT) 算法 。 


BPTT 算 法 是 BP 算法 的 扩展 ， 可 以 将 加 载 在 网 络 上 的 时 序 信 号 按 层 展 
开 ， 这 样 束 使 得 前 馈 神 经 网 络 的 静 仿 网 络 转 化 为 动态 网 络 。 


6.5 ”循环 神经 网 络 发 展 
循环 神经 网 络 的 发 展 如 图 6-15 所 示 。 


Simple RNN 


增强 隐藏 
层 的 功能 


两 者 结合 
Vanilla RNN DBLSTM 


Bidirectional RNN 


双向 化 及 
加 深 网 络 
Reep Bidirectional RNN 


图 6-15 


最 初 Vanilla RNN 的 改进 和 和 CNN 的 改进 类 似 ， 也 是 朝 着 两 个 方 同 演 
化 : 一 是 隐藏 层 的 功能 未 渐 增 强 ， 二 是 网 络 的 双 同 化 及 加 深 。 本 广内 
容 参 考 《Recurrent Neural Networks, Part 1-Introduction 


to RNNs》 [71 o 


6.5.1 增强 隐藏 层 的 功能 


1. 简单 RNN 


简单 RNN (Simple RNN，SRNN) 是 一 个 3 层 网 络 ， 在 隐藏 层 (也 
叫 上 下 文 层 ) 增加 了 上 下 文 单元 。 图 6-16 中 的 CONTEXT(t ) 是 隐藏 层 ， 
CONTEXT(t -1 是 上 下 文 单 元 。 上下文 单元 节点 与 隐藏 层 中 的 和 点 的 连 
接 及 权 值 都 是 固定 的 。 


INPUT(?) OUTPUTA 


CONTEXT(t) 


CONTEXT(t-1) 


图 6-16 


如 图 6-16 所 示 ， 假 设 当 前 是 t 时刻， 则 分 3 步 来 预测 P (w，): 


。 单词 w，; 映射 到 词 回 量 ， 记 作 INPUT(t ); 

。 连接 上 一 次 训练 的 隐藏 层 CONTEXT(t -1)， 通 过 sigmoid 激 活 画 数 
生成 当前 ! 时 刻 的 CONTEXT(t ); 

。 利用 softmax 函 数 ， 预 测 P (wm ) ° 


2. LST 


一 般 的 RNN 只 能 与 前 面 若 干 序列 有 关 ， 若 超过 十 步 ， 就 很 容易 产 
生 梯 度 消失 或 者 梯度 爆炸 问题 。 产 生 梯 度 消失 是 因为 导数 的 链 式 法 则 
导致 了 连 乘 ， 造 成 梯度 指数 级 消失 。 通 过 引入 单元 (cell) 结构 ， 得 到 
了 RNN 的 改进 模型 长 短期 记忆 (Long-Short Term Memory, LSTM) 模 
型 ， 这 个 模型 可 以 解决 梯度 消失 的 问题 ， 如 图 6-17 所 示 。 


可 以 看 出 ， 把 图 6-14 中 RNN 隐 藏 层 中 的 黑 圆 圈 换 成 图 6-17 里 LSTM 
中 的 Block， 就 得 到 LSTM 模 型 了 。 这 个 Block 里 面 主 要 有 1 个 单元 
(cell) ，3 个 门 (gate) ° 


图 6-17 [18] 


。 单元 (cell) : 主要 有 一 个 状态 参数 ， 用 来 记录 状态 。 
。 输 入 门 (input gate) 和 输出 门 (output gate) : 对 参数 的 输入 、 输 
出 进行 处 理 。 
。 cl] (forget gate) : 用 来 设置 选择 性 遗志 的 权重 ， 原 始 RNN 在 
这 里 权重 是 1。 
3. GRU 


GRU [°] (Gated Recurrent Unit Recurrent Neural Network) 中 在 隐 
藏 层 上 不 同 距离 处 的 单词 对 当前 的 隐藏 层 的 状态 的 影响 不 同 ， 距 离 越 
远 的 影响 越 小 。 在 每 个 前 面 的 状态 对 当前 的 隐藏 层 的 状态 的 影响 上 进 
行 了 距离 加 权 ， 距 离 越 远 权 值 越 小 。 同 时 ， 在 发 生 误 差 时 ， 仅 仅 对 产 
生 误 差 的 对 应 单词 的 权重 进行 更 新 。 


如 图 6-18 所 示 ，GRU 的 思想 和 LSTM 的 十 分 相似 。GRU 有 两 个 门 ， 
即 重 置 门 ” 和 更 新 门 z。 重 置 门 决 定 如 何 组 合 新 输入 和 之 前 的 记忆 ， 更 
新 门 决定 留 下 多 少 之 前 的 记忆 。 如 果 把 重 置 门 都 设 为 1， 更 新 门 都 设 为 
0， 就 得 到 普通 的 RNN 模 型 。 


图 6-18 


4. CW-RNN P’ 


CW-RNN (Clockwork RNN) 是 一 种 使 用 时 钟 频率 驱动 的 RNN 。 
它 将 隐藏 层 分 为 儿 个 组 ， 通 过 不 同 的 隐藏 层 组 工作 在 不 同 的 时 钟 频 率 
下 来 解决 长 时 间 依 赖 问题 。 每 一 组 按照 自己 规定 的 时 钟 频率 对 输入 进 
行 处 理 。 将 时 钟 时 间 离 散 化 ， 不 同 的 时 间 点 不 同 的 隐藏 层 组 工作 ， 所 
有 的 隐藏 层 组 在 每 一 步 不 会 都 同时 工作 ， 这 样 就 加 快 网 络 的 训练 。 此 
外 ， 时 钟 周期 大 的 组 的 神经 元 速度 慢 ， 周 期 小 的 速度 快 ， 连 接 方 向 是 
周期 大 的 连接 到 周期 小 的 ， 周 期 小 的 不 会 连接 到 周期 大 的 。CW-RNN 
的 结构 图 如 图 6-19 所 示 。 
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如 岁 6-19 所 示 ， 隐 藏 层 中 的 神经 元 会 家 划分 为 在 干 个 组 ， 记 为 g ， 
每 一 组 中 的 神经 元 个 数 相同 ， 记 为 k ， 并 为 每 一 个 组 分 配 一 个 时 钟 周 期 
T;E{T1,T,,.…, 了 gy}， 每 一 个 组 内 的 所 有 神经 元 是 全 连接 的 ， 但 是 组 j 
到 组 i 是 循环 连接 ， 并 需要 满足 九 大 于 T;。 如 图 6-19 所 示 ， 这 些 组 按照 
时 钟 周期 递增 从 左 到 右 进 行 排序 ， 即 T 1 <T，<.…<T ， 连 接 方向 便 是 从 
右 到 左 ， 从 速度 慢 的 组 连接 到 速度 快 的 组 。 


6.5.2” 双 回 化 及 加 深 网 络 
1. 双向 RNN 


双向 RNN PH! (Bidirectional RNN) 假设 当前 (第 t 步 ) 的 输出 不 
仅 与 前 面 的 序列 有 关 ， 而 且 与 后 面 的 序列 有 关 。 原 始 的 双向 RNN 是 一 
个 相对 较 简单 的 RNN， 由 两 个 RNN 上 下 准 加 在 一 起 组 成 。 输 出 由 这 两 
个 RNN 的 隐藏 层 的 状态 决定 ， 如 图 6-20 所 示 。 


前 向 传播 状态 


反 向 传播 状态 


图 6-20 


目前 的 双 同 RNN 有 所 发 展 ， 例 如 ， 将 双 辣 的 思想 和 LSTM ` GRU 
结合 ， 变 成 双向 LSTM、 双 向 GRU 等 。 


2. 深度 双向 RNN 


“双向 ”与 “深度 ”结合 ， 就 产生 了 深度 双向 RNN (Deep Bidirectional 
RNN) ， 深 度 双 向 RNN 与 双向 RNN 类 似 ， 但 在 隐藏 层 到 加 了 多 层 ， 使 
每 一 步 的 输入 有 多 层 网 络 ， 有 更 强大 的 表达 与 学 习 能 力 ， 但 需要 更 多 
的 训练 数据 。 图 6-21 左 侧 表示 了 一 个 多 个 隐藏 层 的 RNN， 右 侧 表示 深 
度 双 向 LSTM (DBLSTM) 。 


图 6-21 [22] 


本 世 大 致 介绍 了 RNN 的 发 展 脉络 。 除 此 之 外 ，RNN 在 训练 的 过 程 
的 学 习 算 法 也 逐渐 丰富 ， 如 BPTT (Back Propagation Through Time) ` 
RTRL (Real-time Recurrent Learning) 、EKF (Extended Kalman 
Filter) 等 ， 读 者 可 以 自行 查阅 相关 资料 进行 学 习 。 


6.6 TensorFlow Model Zoo 
TensorFlow 的 模型 都 位 于 https:/github.comytensorflow/models ° IE 


如 5.2 节 中 介绍 的 ， 这 个 目录 中 有 很 多 图 像 和 语 首 处 理 的 模型 ， 可 以 直 
接合 来 用 。 这 些 模型 的 检查 点 文件 (参考 4.8.1Tickpt 模 型 文件 的 保 


F) 有 的 被 打 成 压缩 包 ， 可 以 直接 下 载 ， 当 作 预 训练 模型 使 用 ， 如 表 6- 
1 所 示 。 


表 6-1 


inception_v1_2016_08_28.tar.gz 
inception_v2_2016_08_28.tar.gz 
inception_v3_2016_08_28.tar.gz 
inception_v4_2016_09_09.tar.gz 


Inception-ResNet-v2 inception_resnet_v2.tar.gz 


resnet_v1_50.tar.gz 
resnet_v1_101.tar.gz 
resnet_v1_152.tar.gz 


此 外 ， 我 们 知道 ，Caffe 因 为 开源 时 间 比 较 久 ， 有 很 多 训练 好 的 模 
型 ， 读 者 可 以 利用 它 作 为 目 己 训练 项 目的 预 训练 模型 ， 大 大 地 减少 训 
练 时 间 和 送 代 次 数 。Caffe 的 模型 位 于 Caffe Model Zoo 中 ， 我 们 可 以 用 
工具 加] 将 Caffe 的 模型 转换 为 TensorFlow 的 模型 。 


6.7 ”其 他 研究 进展 


了 解 了 CNN 和 RNN 的 发 展 ， 现 在 再 来 看 看 深度 学 习 还 有 什么 令 人 
激动 的 研究 进展 。 目 前 TensorFlow 的 拥 熏 巨 多 ， 这 些 新 的 进展 一 旦 出 
现 ， 在 开源 社区 如 GitHub 上 就 会 立刻 有 人 将 其 实现 ， 并 且 很 多 也 会 慢 
慢 合并 到 Keras 等 第 三 方 框架 中 ， 让 开发 人 员 运 用 新 的 算法 更 加 得 心 应 
手 。 

6.7.1 ”强化 学 习 

强化 学 习 (reinforcement learning) 是 机 器 学 习 大 家 族 中 的 一 个 分 

支 ， 并 且 随 着 和 深度 神经 网 络 相 结合 ， 体 现 出 更 强大 的 特性 ， 并 且 在 


AlphaGo 的 改良 策略 网 络 (policy network) 中 ， 也 用 到 了 强化 学 习 的 
方法 。 


Sea 
KH, D 


强化 学 习 介 于 有 监督 学 习 和 无 监督 学 习 之 间 。 在 强化 学 
有 很 少 的 标记 (奖励 ， 这 些 标记 还 有 延迟 。 模 型 通过 这 些 
断 学 习 在 环境 中 的 行为 。 


强化 学 习 主 要 用 在 游戏 、 下 棋 、 博 畦 这 类 有 得 分 并 且 有 很 多 步 操 
作 的 活动 中 ， 主 要 是 用 来 做 连续 决策 。 强 化 学 习 大 家 族 中 有 很 多 方 
法 ， 如 Q-learning、Sarsa、Policy Gradient ` Actor Critic 等 ， 一 般 包 括 算 


法 更 新 和 思维 决策 两 个 部 分 。 如 果 与 神经 网 络 相 结合 ， 可 以 采用 深度 Q 
网 络 (Deep Q Network, DQN) 。 目 前 也 有 很 多 使 用 Keras 的 开源 实 
现 ， 读 者 可 以 目 行 查找 © 


6.7.2 ”深度 森林 


我 们 知道 ， 使 用 深度 神经 网 络 训练 模型 时 ， 首 先 需 要 大 量 的 训练 
数据 ， 尤 其 是 很 多 标记 数据 ， 并 且 依 赖 强大 的 计算 设施 和 超 参 数 的 调 
节 。 周 志 华 教授 在 其 论文 《Deep Forest: Towards An Alternative to 
Deep Neural Networks) [52 中 提出 了 一 种 基于 树 的 新 方法 一 一 多 粒度 
级 联 和 森林 (multi-grained cascade forest，gcForest) ° gcForest HAD 
量 数据 的 情况 下 也 可 以 训练 ， 并 且 超 参数 比 深度 神经 网 络 少 得 多 ， 对 
超 参数 设 定 来 说 性 能 健壮 性 也 很 高 ， 所 以 使 用 gcForest 训 练 起 来 很 容 
易 。 此 外 ， 对 于 不 同 规模 或 者 不 同 数据 ， 也 能 使 用 默认 设 定 取得 很 好 
的 结 采 。 


这 为 我 们 使 用 深度 神经 网 络 之 外 的 方法 打开 了 一 扇 []。 未 来 的 深 
度 学 习 中 也 许 会 出 现 更 多 神经 网 络 方向 外 的 思路 。 


6.7.3 ”深度 学 习 与 艺术 


在 绘画 领域 ， 有 一 个 非常 著名 的 “艺术 风格 的 神经 网 络 算法 ”(A 
Neural Algorithm of Artistic Style) P5! 。 这 个 算法 主要 是 进行 绘画 风格 
的 迁移 。 例 如 ， 把 焚 高 、 毕 加 索 的 绘画 风格 应 用 在 选 定 的 照片 上 。 也 
束 是 说 ， 它 可 以 把 一 幅 图 片 的 风格 和 内 容 分 开 ， 从 而 把 A 图 片 的 风格 和 
B 图 片 的 内 容 组 合 起 来 ， 生 成 一 幅 风 格 化 的 内 容 图 片 。 在 美 图 秀 秀 、 魔 
漫 相 机 、 脸 萌 等 软件 上 ， 也 有 类 似 的 玩法 。 这 个 算法 也 已 经 有 了 采用 


TensorFlow 的 开源 实现 PSl 。 读 者 可 以 自己 尝试， 探究 参数 并 了 解 原 
理 。 


在 音乐 领域 ， 也 可 以 利用 深度 学 习 来 进行 创作 。 例 如 ， 用 大 量 的 
MIDI 音 频 旋律 作为 训练 数据 ， 采 用 RNN 来 生成 一 段 旋律 ， 有 了 这 段 旋 
律 ， 就 可 以 作为 后 续 创作 的 种 子 和 灵感 ， 如 有 果 输 入 大 量 的 巴赫 、 贝 多 
分 、 首 邦 的 乐曲 ， 还 可 以 模仿 他 们 的 作曲 风格 做 出 旋律 。 用 音乐 作曲 
已 经 有 了 TensorFlow 的 开源 实现 [2 o 


扩展 到 其 他 艺术 领域 ， 我 们 知道 ， 一 个 创作 者 的 天 赋 或 者 勤奋 的 
大 量 积 素 是 创作 的 灵感 来 源 ， 甚 至 有 了 时候 需 要 从 生活 中 的 其 他 事物 中 
寻找 灵感 。 记 得 大 张 伟 曾 经 说 过 他 的 创作 过 程 就 是 去 听 几 个 GB 的 歌 去 
找 灵 感 ， 每 月 要 去 听 几 千 首 的 歌 。 深 度 学 习 可 以 帮 你 创作 一 些 旋律 小 
样 ， 硕 望 可 以 作为 灵感 的 种 子 。 


6.8 ”小结 


本 章 主要 介绍 了 卷 积 神经 网 络 和 循环 神经 网 络 的 发 展 过 程 ， 描 述 
了 发 展 的 脉络 和 方向 ， 对 后 来 研究 中 设计 模型 结构 很 有 局 发 意义 。 此 
外 ， 本 间 还 介绍 了 深度 学 习 研 究 中 的 其 他 进展 ， 如 强化 学 习 、 深 度 森 
林 、 深 度 学 习 在 音乐 和 绘画 上 的 进展 ， 都 是 目前 很 火 的 研发 方向 。 本 
书 还 举例 了 TensorFlow 对 AlexNet 的 实现 ， 以 及 TensorFlow 目 前 完善 的 
预 训练 模型 社区 TensorFlow Model Zoo， 读 者 熟练 后 ， 可 以 找到 跟 上 自己 
业务 模型 相近 的 预 训练 模型 进行 训练 。 除 此 之 外 ， 迁 移 学 习 、One Shot 
学 习 、 目 标 检 测 、 视 觉 跟踪 、 机 器 人 技术 目标 分 割 等 也 是 研究 的 热 
点 ， 读 者 可 以 选择 目 己 钴 研 的 行业 潜心 研究 。 
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第 7 章 “TensorFlow 的 高 级 框架 


得 益 于 TensorFlow 社 区 的 索 菏 ， 诞 生出 许多 高 质量 的 元 框架 
(metaframework) ， 如 Keras、TEFLearn、TensorLayer 等 。 使 用 元 框架 
能 够 大 大 减少 编写 TensorFlow 代 码 的 工作 量 ， 方 便 开发 者 快速 搭建 网 
络 模 型 ， 并 日 使 代码 简单、 可 读 性 强 。 


本 章 我 们 主要 讲解 官方 默认 支持 的 Kerass 和 老牌 的 TFLearn 提 供 的 
高 级 API。 


7.1 TFLearn 


TEFLearn 是 一 个 建立 在 TensorFlow 顶 部 的 模块 化 的 深度 学 习 框架 ， 
它 为 TensorFlow 提 供 更 高 级 的 API， 以 便于 快速 实验 ， 同 时 保持 完全 透 
明和 兼容 。 

在 6.2 世 中 我 们 已 经 用 原生 的 TensorFlow 代 但 完成 了 AlexNet。 读 者 
可 能 已 经 感受 到 其 代码 的 元 长， 下 面 我 们 就 用 TFLearn 框 架 ， 看 看 如 何 
将 代码 写 得 简洁 。 H 


7.1.1 ”加 载 数据 


这 里 用 的 是 牛津 大 学 的 鲜花 数据 集 加 (Flower Dataset) 。 这 个 数 
据 集 提供 了 17 个 类 别 的 鲜花 数据 ， 每 个 类 别 80 张 图 片 ， 并 有 旦 图 片 有 大 
量 的 姿态 和 光 的 变化 。 


主意 ， 在 代码 的 开始 需要 导入 用 到 的 与 卷 积 、 池 化 、 规 范 化 相关 
oe 方法 如 下 : 


import tflearn 

from tflearn.layers.core import input_data, dropout, 
fully connected 

from tflearn.layers.conv import conv_2d, max_pool_2d 
from tflearn.layers.normalization import 


local_response_normalization 
from tflearn.layers.estimator import regression 


import tflearn.datasets.oxflower17 as oxflower17 
X, Y = oxflower17.load_data(one_hot=True, resize _pics=(227, 227)) 


7.1.2 ”构建 网 络 模型 


构建 AlexNet 网 络 模型 时 ， 直 接 使 用 TFLearn 中 的 卷 积 、 池 化 、 规 
W` DE ` dropout KARR ERN] ° FIEU TF: 


# 构建 AlexNet 网 络 


network = input_data(shape=[None, 227, 227, 3]) 

network = conv_2d(network, 96, 11, strides= 4, activation='relu' ) 
network = max_pool_2d(network, 3, strides=2) 

network = local_response_normalization(network) 

network = conv_2d(network, 256, 5, activation='relu' ) 
network = max_pool_2d(network, 3, strides=2) 

network = local_response_normalization(network) 

network = conv_2d(network, 384, 3, activation='relu') 
network = conv_2d(network, 384, 3, activation='relu') 
network = conv_2d(network, 256, 3, activation='relu') 
network = max_pool_2d(network, 3, strides=2) 

network = local_response_normalization(network) 

network = fully _connected(network, 4096, activation='tanh' ) 
network = dropout(network, 0.5) 

network = fully _connected(network, 4096, activation='tanh' ) 
network = dropout(network, 0.5) 

network = fully _connected(network, 17, activation='softmax' ) 
network = regression(network, optimizer='momentum', 


loss='categorical_crossentropy', 


learning_rate=0.001) # 回归 操作 ， 同 时 规定 网 络 所 使 月 


ay 


的 学 习 率 、 损 失 画 数 和 优化 器 


7.1.3 ”训练 模型 


构建 完 模型 之 后 ， 束 可 以 训练 模型 了 。 这 里 我 们 加 了 一 步 ， 就 古 
假设 有 训练 好 或 训练 到 一 半 的 AlexNet 模 型 的 检查 点 文件 ， 直 接 载 入 ， 
方法 如 下 : 


model = tflearn.DNN(network, checkpoint_path='model_alexnet', 
max_checkpoints=1, tensorboard_verbose=2) 
model.fit(X, Y, n_epoch=1000, validation_set=0.1, shuffle=True, 


show_metric=True, batch_size=64, snapshot_step=200, 
snapshot_epoch=False, run_id='alexnet_oxflowers17' ) 


可 见 ， 代 码 简洁 得 让 人 惊讶 。 这 就 是 第 三 方 库 的 优点 。 
7.2 Keras 


Keras 是 一 个 高 级 的 Python 神经 网 络 框架 ， 其 文档 详 见 
https://keras.io/ 。Keras 已 经 被 添加 到 TensorFlow 中 ， 成 为 其 默认 的 框 
3B, A TensorFlowfe tt tay 2AYAPI ° 
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是 一 个 不 错 的 选择 。 如 果 将 TensorFlow 比 喻 为 编程 界 的 Java 或 C++， 那 
么 Keras 就 是 编程 界 的 Python。 它 作为 TensorFlow 的 高 层 封 狼 ， 可 以 与 
TensorFlow 联 合 使 用 ， 用 它 快速 搭建 原型 。 


另外 ，Keras 兼 容 两 种 后 端 ， 即 Theano 和 TensorFlow， 并 且 其 接口 
形式 和 Torch 有 几 分 相像 。 和 掌握 Keras 可 以 大 幅 提 升 对 开发 效率 和 网 络 


结构 的 理解 。 
7.2.1 ”Keras 的 优点 


Keras 是 高 度 封装 的 ， 非 常 适 合 新 手 使 用 ， 代 码 更 新 速度 比较 快 ， 
示例 代码 也 比较 多 ， 文 档 和 讨论 区 也 比较 完善 。 最 重要 的 是 ，Keras 是 
TensorFlow 官 方 文 持 的 。 当 机 器 上 有 可 用 的 GPU 时 ， 代 码 会 目 动 调用 
GPU 进行 并 行 计 算 。 


Keras 官 方 网 站 上 摘 述 了 它 的 几 个 优点 ， 有 具体 如 下 。 


。 模块 化 : 模型 的 各 个 部 分 ， 如 神经 层 、 成 本 函数 、 优 化 器 、 初 始 
化 、 激 活 函 数 、 规 范 化 都 是 独立 的 模块 ， 可 以 组 合 在 一 起 来 创建 
模型 。 

。 极 简 主 义 : 每 个 模块 都 保持 简短 和 简单 。 

。 易 扩展 性 : 很 容易 添加 新 模块 ， 因 此 Keras 适 于 做 进一步 的 高 级 
WA ° 

。 使 用 Python 语言 : 模型 用 Python 实现 ， 非 常 易 于 调试 和 扩展 。 


7.2.2 ”Keras 的 模型 [3] 


Keras 的 核心 数据 结构 是 模型 。 模 型 是 用 来 组 织 网 络 层 的 方式 。 模 
型 有 两 种 ， 一 种 叫 Sequential 模 型 ， 男 一 种 叫 Model 模 型 。Sequential 模 
型 是 一 系列 网 络 层 按 顺序 构成 的 栈 ， 是 单 输入 和 单 输出 的 ， 层 与 层 之 
间 只 有 相 邻 关系 ， 是 最 简单 的 一 种 模型 。Model 模 型 是 用 来 建立 更 复 
杂 的 模型 的 。 


这 里 先 介绍 简单 的 Sequential 模 型 的 使 用 (7.2.3 市 将 会 以 一 个 示例 
来 介绍 Model 模 型 ) 。 首 先是 加 载 数据 ， 这 里 我 们 假设 数据 已 经 加 载 
完毕 ， 是 X_train, Y_train 和 X_test, Y_test°。 然后 构建 模型 . 


from keras.models import Sequential 

from keras.layers import Dense, Activation 
model = Sequential() 
model.add(Dense(output_dim=64, input_dim=100) ) 


model.add(Activation("relu") ) 
model.add(Dense(output_dim=10) ) 
model.add(Activation("softmax") ) 
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model.compile(loss='categorical_crossentropy', optimizer='sgd', 
metrics=['accuracy']) 


最 后 ， 训 练 模 型 和 评估 模型 : 


model.fit(X train, Y_train, nb_epoch=5, batch_size=32) 


loss_and_metrics = model.evaluate(X_test, Y_test, batch_size=32) 


这 束 古 一 个 最 简单 的 模型 的 使 用 。 如 果 要 搭建 复 淋 的 网 络 ， 可 以 
使 用 Keras 的 Model 模 型 ， 它 能 定义 多 输出 模型 、 含 有 共 至 层 的 模型 、 
共 至 视觉 模型 、 图 片 问 管 模型、 视觉 问答 模型 等 。 在 Keras 的 源 代码 的 
examples 文 件 夹 里 还 有 更 多 的 例子 ， 有 兴趣 的 读者 可 以 参考 。 


7.2.3 ”Keras 的 使 用 


我 们 下 载 Keras 代 码 册 到 本 地 目录 ， 将 下 载 后 的 目录 命名 为 
keras。Keras 源 代码 中 包含 很 多 示例 ， 例 如 : 


。 CIFAR10 一 一 图 片 分 类 (使 用 CNN 和 实时 数据 ) ; 
。IMDB 一 一 电影 评论 观点 分 类 (使 用 LSTM) ; 

新 闻 主 题 分 类 (使 用 多 层 感知 器 ) ; 

。 MNIST 一 一 手写 数字 识别 (使 用 多 层 感 知 器 和 CNN) ; 
。 OCR 一 一 识别 字符 级 文本 生成 (使 用 LSTM) 


e Reuters 


这 里 我 们 主要 用 MNIST 示 例 进 行 讲解 。 后 续 在 第 13 章 中 ， 我 们 仍 
会 以 Keras 框 架 来 讲解 原理 及 代码 实现 。 


1. 安装 
Keras 的 安装 非常 简单 ， 不 依赖 操作 系统 ， 建 议 大 家 直接 通过 pip 
命令 安装 : 


pip install keras 


安 闭 完成 后 ， 需 要 选择 依赖 的 后 端 ， 在 ~/.keras/keras,json 下 修改 最 
后 一 行 backend 对 应 的 值 即 可 。 修 改 后 的 文件 如 下 : 


"image_dim ordering": "tf", 
"epsilon": 1e-07, 


"floatx": "float32", 
"backend": "tensorflow" 


2. 实现 卷 积 神经 网 络 © 


用 Keras 实 现 一 个 网 络 模型 ， 主 要 分 为 加 载 数据 、 模 型 构建 、 模 型 
编译 、 模 型 训练 、 模 型 评估 或 者 模型 预测 几 步 。 下 面 我 们 就 用 最 简单 
的 MNIST 示 例 来 看 如 何 用 Keras 实 现 一 个 卷 积 神经 网 络 (CNN) ° 


目 和 完 ， 定 义 好 超 参数 以 及 加 载 数 据 ， 如 下 : 


batch_size 128 
nb_classes = 10 # 分 类 数 
nb_epoch = 12 # 训练 轮 数 


# 输入 图 片 的 维度 

img_rows, img_cols = 28, 28 
H 卷 积 滤 镜 的 个 数 

nb_filters = 32 

# 最 大 池 化 ， 池 化 核 大 小 
pool_size = (2, 2) 

# 卷 积 核 大 小 


kernel_size = (3, 3) 


(X_train, y_train), (X_test, y_test) = mnist.load_data() 


if K.image_dim_ordering() == 'th': 
# 使 用 Theano 的 顺序 : (conv_dim1, channels, conv_dim2, conv_dim3) 
X_train = X_train.reshape(X_train.shape[0], 1, img_rows, 
img_cols) 
X_test = X_test.reshape(X_test.shape[0], 1, img_rows, img_cols) 
input_shape = (1, img_rows, img_cols) 
else: 
# 使 用 TensorFlow 的 顺序 : (conv_dim1, conv_dim2, conv_dim3, 
channels) 
X_train = X_train.reshape(X_train.shape[0], img_rows, img_cols, 
1) 
X_test = X_test.reshape(X_test.shape[0], img_rows, img_cols, 1) 
input_shape = (img_rows, img_cols, 1) 


X_train = X_train.astype('float32') 
X_test = X_test.astype('float32') 
X_train /= 255 

X_test /= 255 


# 将 类 向 量 转换 为 二 进 制 类 矩阵 
Y_train = np_utils.to_categorical(y_train, nb_classes) 
Y_test = np_utils.to_categorical(y_test, nb_classes) 


下 面 来 构建 模型 ， 这 里 用 2 个 卷 积 层 、1 个 池 化 层 和 2 个 全 连接 层 来 
构建 ， 如 下 : 


model = Sequential() 


model.add(Convolution2D(nb_filters, kernel_size[0], 
kernel_size[1], 
border_mode='valid', 
input_shape=input_shape) ) 
model.add(Activation('relu')) 
model.add(Convolution2D(nb_filters, kernel_size[0], 
kernel_size[1])) 
model.add(Activation('relu')) 
model.add(MaxPooling2D(pool_size=pool_size) ) 
model.add(Dropout(0.25) ) 


model.add(Flatten()) 
model.add(Dense(128) ) 
model.add(Activation('relu')) 
model.add(Dropout(0.5) ) 
model.add(Dense(nb_classes) ) 
model.add(Activation('softmax' ) ) 


随后 ， 用 model.compile() 男 数 编 译 模 型 ， 采 用 多 分 类 的 损失 函 
数 ， 用 Adadelta 算 法 做 优化 方法 ， 如 下 : 


model.compile(loss='categorical_crossentropy', 
optimizer='adadelta', 
metrics=['accuracy' ]) 


然后 ， 开 始 用 model.fit0 画 数 训练 模型 ， 输 入 训练 集 和 测试 数据 ， 
以 及 batch_size 和 nb_epoch 参 数 ， 如 下 : 


model.fit(X_train, Y_train, batch_size=batch_size, 
nb_epoch=nb_epoch, 


verbose=1, validation_data=(X_test, Y_test)) 


最 后 ， 用 model.evaluate() 芳 数 来 评估 模型 ， 输 出 测试 集 的 损失 值 
和 准确 率 ， 如 下 : 


score = model.evaluate(X_test, Y_test, verbose=0) 


print('Test score:', score[0]) 
print('Test accuracy:', score[1]) 


计算 出 的 损失 值 和 准确 率 如 下 : 


Test score: 0.0327563833317 
Test accuracy: 0.9893 


管 模 型 架构 是 不 变 的 ， 但 是 读者 要 


这 年 一 个 非常 简单 的 例子 。 尽 管 模 型 
和 是 先 读 懂 对 应 的 神经 网 络 论文 ， 然 


将 其 应 用 到 目 己 的 开发 领域 ， 一 般 
后 用 这 个 架构 去 搭建 和 训练 模型 。 


3. 模型 的 加 载 及 保存 


Keras 的 save_model 和 1load_model 方 法 可 以 将 Keras 模 型 和 权重 保存 
在 一 个 HDF5 文 件 中 ， 这 里 面包 括 模型 的 结构 、 权 重 、 训 练 的 配置 CG 
RAŽ ` LRE) 等 。 如 果 训 练 因为 某 种 原因 中 止 ， 就 用 这 个 HDF5 文 
件 从 上 次 训练 的 地 方 重新 开始 训练 。 


keras/tests 目 孙 中 的 test_model_saving.py 文 件 中 给 出 了 加 载 和 保存 
模型 的 方式 。test_model_saving.py 文 件 的 内 容 如 下 : 


from keras.models import save_model, load model 


def test_sequential_model_saving(): 
model = Sequential() 


model.add(Dense(2, input_dim=3) ) 

model.add(RepeatVector (3) ) 

model .add(TimeDistributed(Dense(3) ) ) 

model .compile(loss=objectives.MSE, 
optimizer=optimizers.RMSprop(lr=0.0001), 
metrics=[metrics.categorical_accuracy], 
sample_weight_mode='temporal' ) 

= np.random.random((1, 3)) 

= np.random.random((1, 3, 3)) 

odel.train_on_batch(x, y) 


out = model.predict(x) 
_, fname = tempfile.mkstemp('.h5') # 创建 一 个 HDFS 5 文 伯 
save_model(model, fname) 


VF 


new_model = load_model( fname ) 
os.remove( fname) 


out2 = new_model.predict(x) 
assert_allclose(out, out2, atol=1e-05) 


# 检测 新 保存 的 模型 和 之 前 定义 的 模型 是 否 一 致 
x = np.random.random((1, 3)) 

y = np.random.random((1, 3, 3)) 
model.train_on_batch(x, y) 
new_model.train_on_batch(x, y) 

out = model.predict(x) 

out2 = new_model.predict(x) 
assert_allclose(out, out2, atol=1e-05) 


如 果 只 是 希望 保存 模型 的 结构 ， 而 不 包含 其 权重 及 训练 的 配置 
(损失 函数 、 优 化 器 ) ， 可 以 使 用 下 面 的 代码 将 模型 序列 化 成 json 或 
者 yaml 文 件 : 


json_string model.to_json() 


json_string model.to_yam1() 


保存 完成 后 ， 还 可 以 手动 编辑 ， 并 且 使 用 如 下 语句 进行 加 载 : 


from keras.models import model_from_json 


model 
model 


model_from_json(json_string) 
model_from_yaml(yaml_string) 


如 有 果 仅 需要 保存 模型 的 权重 ， 而 不 包含 模型 的 结构 ， 可 以 使 用 
save_weights 和 load_weights 语 句 来 保存 和 加 载 : 


model.save_weights('my_model_weights.h5' ) 


model.load_weights('my_model_weights.h5' ) 


7.3 小结 


本 章 主 要 介绍 了 TensorFlow 的 高 质量 的 元 框架 Keras 和 
TFLearn。 当 读者 熟练 使 用 TensorFlow 去 构建 神经 网 络 后 ， 会 发 现 
TensorFlow 的 确 过 于 灵活 ， 且 代码 十 分 见长 。 使 用 元 框架 提供 的 高 级 
API 能 够 可 以 极 大 地 提高 开发 效率 ， 很 容易 做 一 些 模型 实验 。 在 第 11 
章 和 第 13 章 中 都 会 用 Keras 和 TFLearmn 里 的 高 级 API 来 构建 网 络 。 


[1] 本 和 代码 参考 
https://github.com/tflearn/tflearn/blob/master/examples/images/alexnet.py 


O° 


[2] http://www.robots.ox.ac.uk/~vgg/data/flowers/17/ 


[3] ”本 节 的 示例 参考 Keras 的 官方 文档 : https://keras.io/ ° 


[4] https://github.com/fchollet/keras 


[5] KERBER 


https://github.com/fchollet/keras/blob/master/examples/mnist_cnn.py ° 


第 二 篇 ”实战 篇 


经 过 基础 篇 的 学 习 ， 相 信 读 者 对 TensorFlow 的 基本 概念 已 经 掌握 
得 很 好 了 ， 而 实战 是 一 个 程序 员 的 目 我 修养 。 


俄罗斯 著名 的 戏剧 和 表演 理论 家 康 斯 坦 丁 斯 坦 尼斯 拉夫 斯 基 在 他 
的 著作 《演员 的 目 我 修养 》 里 主张 体验 ， 让 演员 和 角色 合 二 为 一 ， 这 
样 才能 把 角色 内 心 生活 的 一 切 不 可 提 措 的 细微 变化 和 全 部 深度 ， 忆 术 
地 表达 出 来 。 只 有 这 样 的 艺术 才能 完全 抓 住 观 众 的 心 ， 使 观众 弄 明 日 
舞台 上 所 发 生 的 一 切 ， 丰 富 观 众 的 内 心 的 经 验 ， 在 他 们 心中 留 下 时 间 
无 法 磨灭 的 痕迹 。 而 人 的 情感 一 定 是 依照 天 性 目 然 发 生 的 ， 是 不 经 意 
间 达 到 的 ， 却 不 是 随时 能 通过 外 在 变化 《如 哭泣 、 面 部 表情 ) 来 表 
达 ， 这 时 束 需 要 表演 者 对 戏剧 角色 的 动作 行为 深入 人 研究， 然后 撕 摩 出 
内 心 的 情感 特征 ， 让 “动作 ?和 “心理 ?相互 影响 ， 激 发 出 天 性 ， 使 动作 
的 表现 更 加 真实 。 


学 者 式 的 研究 与 学 习 表 演 有 很 大 相似 之 处 。 学 习 表 演 的 对 象 是 剧 
本 中 的 人 物 ， 将 剧本 和 和 角色 剖析 成 不 同 层 次 的 单元 ， 这 里 人 研究 的 对 象 
是 TensorFlow， 最 终 希 望 能 够 服务 于 我 们 所 做 的 工作 上 。 那 么 ， 从 哪 
些 方面 学 习 才 能 真正 掌握 它 呢 ? 基础 篇 相当 于 将 TensorFlow 襄 析 成 不 
同 的 单元 ， 并 讲解 了 “剧本 ”( 卷 积 神经 网 络 ) 发 展 的 脉络 。 在 本 篇 
中 ， 我 们 就 要 通过 “动作 ”( 各 种 例子 ) 去 揣摩 不 同 单元 是 如 何 构成 每 
一 种 网 络 的 例子 ， 并 且 细 异地 知道 每 个 单元 对 做 不 同 任务 的 网 络 的 影 
响 。 


实践 出 真知 ， 现 在 我 们 这 吏 进 入 实战 演练 。 


第 8 章 ”第 一 个 TensorFlow 程 序 


理解 TensorFlow 的 运行 方式 对 后 面 儿 章 的 具体 实战 非常 重要 。 本 
章 就 用 一 个 简单 的 例子 来 讲解 TensorFlow 的 运行 方式 。 


8.1 ”TensorFlow 的 运行 方式 


TensorFlow 的 运行 方式 分 如 下 4 步 : 
(1) 加 载 数据 及 定义 超 参数 ; 
(2) 构建 网 络 ; 

(3) 训练 模型 ; 
(4) 评估 模型 和 进行 预测 。 


下 面 我 们 以 一 个 神经 网 络 为 例 ， 讲 解 TensorFlow 的 运行 方式 。 在 
这 个 例子 中 ， 我 们 构造 一 个 满足 一 元 二 次 函数 y = ax? +b 的 原始 数 
据 ， 然 后 构建 一 个 最 简单 的 神经 网 络 ， 仅 包含 一 个 输入 层 、 一 个 隐藏 
层 和 一 个 输出 层 。 通 过 TensorFlow 将 隐藏 层 和 输出 层 的 weights 和 
biases 的 值 学 习 出 来 ， 看 看 随 着 训练 次 数 的 增加 ， 损 失 值 是 不 是 不 断 
在 减 小 。 


8.1.1 生成 及 加 载 数据 


首先 来 生成 输入 数据 。 我 们 假设 最 后 要 学 习 的 方程 为 p=X“2- 
0.5， 我 们 来 构造 满足 这 个 方程 的 一 堆 x 和 y ， 同 时 加 入 一 些 不 满足 方 
程 的 噪声 点 。 


import tensorflow as tf 

import numpy as np 

# 构造 满足 一 元 二 次 方程 的 函数 

x_data = np.linspace(-1,1,300)[:, np.newaxis] # 为 了 使 点 更 密 一 些 ， 我 们 
构建 了 396 个 点 ， 分 布 在 -1 到 1 区 间 ， 直 接 采 np 生成 等 差 数列 的 方法 ， 并 将 结果 为 300 个 


点 的 一 维 数组 ， 转 换 为 300x1 的 二 维 数 组 

noise = np.random.normal(0, 0.05, x_data.shape) # 加 入 一 些 噪声 点 ， 使 
它 与 x_data 的 维度 一 致 ， 并 且 拟 合 为 均值 为 9、 方差 为 0.05 的 正 态 分 布 

y_data = np.square(x_data) - 0.5 + noise # y = xA2 - 0.5 + MR 


者 


接 下 来 定义 x 和 y 的 占 位 符 来 作为 将 要 输入 神经 网 络 的 变量 : 


tf.placeholder(tf.float32, [None, 1]) 


tf.placeholder(tf.float32, [None, 1]) 


8.1.2 ”构建 网 络 模型 


这 里 我 们 需要 构建 一 个 隐藏 层 和 一 个 输出 层 。 作 为 神经 网 络 中 的 
层 ， 和 输入 参数 应 该 有 4 个 变量 : 输入 数据 、 输 入 数据 的 维度 、 输 出 数据 
的 维度 和 激活 函数 。 每 一 层 经 过 回 量 化 (y = weights xx + biases ) 的 
处 理 ， 并 且 经 过 激活 函数 的 非 线性 化 处 理 后 ， 最 终 得 到 输出 数据 。 


下 面 来 定义 隐藏 层 和 输出 层 ， 示 例 代 码 如 下 : 


def add_layer(inputs, in_size, out_size, 
activation_function=None): 
# 构建 权重 : in_sizexout_size 大 小 的 矩阵 


weights = tf.Variable(tf.random_normal([in_size, out_size])) 


# 构建 偏 置 : 1xout_size 的 矩阵 
biases = tf.Variable(tf.zeros([1, out_size]) + 0.1) 
# 和 矩阵 相 乘 
wx_plus_b = tf.matmul(inputs, weights) + biases 
if activation_function is None: 
outputs = Wx_plus_b 
else: 
outputs = activation_function(wx_plus_b) 
return outputs # 得 到 输出 数据 
# 构建 隐藏 层 ， 假 设 隐藏 屋 有 10 个 神经 元 
h1 = add_layer(xs, 1, 20, activation_function=tf.nn.relu) 


# 构建 输出 层 ， 假 设 输出 层 和 输入 层 一 样 ， 有 1 个 神经 元 


prediction = add_layer(h1, 20, 1, activation_function=None) 


接 下 来 需要 构建 损失 函数 : 计算 输出 层 的 预测 值 和 真实 值 间 的 误 
和 莹 ， 对 二 者 过 的 平方 求 和 再 取 平 均 ， 得 到 损失 函数 。 运 用 梯度 下 降 
法 ， 以 0.1 的 效率 最 小 化 损失 : 


# 计算 预测 值 和 真实 值 间 的 误差 

loss = tf.reduce_mean(tf.reduce_sum(tf.square(ys - prediction), 
reduction_indices=[1] ) ) 

train_step = tf.train.GradientDescentOptimizer(0.1).minimize(loss) 


8.1.3 ”训练 模型 


我 们 让 TensorFlow 训 | 练 1000 次 ， 每 50 次 输出 训练 的 损失 值 : 


init = tf.global_variables_initializer() # 初始 化 所 有 
sess = tf.Session() 
sess.run(init) 


for i in range(1000): # 训练 1000 次 
sess.run(train_step, feed_dict={xs: x_data, ys: y_data}) 
if i % 50 == 0: # 每 59 次 打印 出 一 次 损失 值 
print(sess.run(loss, feed_dict={xs: x_data, ys: y_data})) 


输出 结果 如 下 ， 在 打印 出 的 20 次 结果 中 ， 可 以 看 出 损失 值 是 趋 于 


变 小 的 : 


.62726 
.00609592 
.00468114 
00430631 
.004184 
.0041371 
.00411622 
.0040998 
00408824 
00407396 
00405857 
.00404454 
. 00403032 
.00401612 
. 00399823 
00397677 
00396069 
. 0039459 
. 00392994 
. 00391947 


4 
0 
0 
0. 
0 
0 
0 
0 
0. 
0. 
0. 
0 
0 
0 
0 
0. 
0. 
0 
0 
0 


以 上 就 是 最 人 简单 的 利用 TensorFlow 的 神经 网 络 训练 一 个 模型 的 过 
程 ， 目 标 束 是 要 训练 出 权重 值 来 使 模型 拟 合 y = x ?0.5 的 系数 1 和 
-0.5， 通 过 损失 值 越 来 越 小 ， 可 以 看 出 训练 参数 越 来 越 逼近 目标 结 
果 。 按 照 标准 的 步骤 ， 接 下 来 应 该 评估 模型 ， 束 是 把 学 习 出 来 的 系数 
weights、biase 进 行 前 回 传 播 后 和 真 值 y= x * - 0.5 的 结 末 系 数 进行 比 
较 ， 根 据 相 近 程 度 计 算 准 确 率 。 这 里 省 略 了 评估 过 程 。 


在 第 9 章 将 进行 对 MNIST 数 据 集 在 各 种 神经 网 络 上 的 训练 。 


3.2” 超 参数 的 设 定 


所 谓 超 参数 (hyper-parameters) ， 就 是 指 机 峰 学 习 模 型 里 的 框 殿 
参数 。 与 权重 参数 不 同 的 是 ， 它 是 需要 手动 设 定 、 不 断 试 错 的 。 


学 习 率 (learning rate) 是 一 个 最 常设 定 的 超 参数 。 学 习 率 设置 得 
越 大 ， 训 练 时 间 越 短 ， 速 度 越 快 ， 而 学 习 率 设置 得 越 小 ， 训 练 得 准确 
度 越 高 。 那 么 ， 如 何 确 定 一 个 比较 好 的 学 习 率 呢 ? 只 能 通过 实验 的 方 
法 。 例 如 ， 先 设置 0.01， 观 察 损失 值 的 变化 ， 然 后 尝试 0.001、 
0.0001， 最 终 确定 一 个 比较 合适 的 学 习 率 。 


我 们 也 可 以 设置 可 变 的 学 习 率 。 那 么 ， 怎 样 才 算 是 准确 率 不 再 提 
高 ， 应 该 停止 训练 了 呢 ? 例 如， 在 训练 过 程 中 记录 最 佳 的 准确 率 ， 在 
连续 mn 轮 (epoch) 没 达到 最 佳 的 准确 率 时 ， 便 可 以 认为 准确 率 不 再 提 
高 ， 就 可 以 停止 训练 ， 称 为 “early stopping”， 这 个 策略 叫 作 “no- 
improvement-in-n” 规 则 〈 例 如， 我 们 设置 连续 10 轮 准确 率 不 再 变动 ， 
就 认为 不 再 提高 ) 。 此 时 ， 让 学 习 率 减 半 ; 下 一 次 满足 时 ， 再 让 学 习 
率 减 半 。 这 样 ， 在 逐渐 解决 最 优 解 时 ， 我 们 的 学 习 率 越 来 越 小 ， 准 确 


mini-batch 大 小 是 另 一 个 最 常设 定 的 超 参数 。 每 批 大 小 决定 了 权 
重 的 更 新 规则 。 例 如 ， 大 小 为 32 时 ， 吏 是 把 32 个 样本 的 梯度 全 部 计算 
完 ， 然 后 求 平 均值 ， 去 更 新 权重 。 批 次 越 大 训练 的 速度 越 快 ， 可 以 利 
用 矩阵 、 线 性 代数 库 来 加 速 ， 但 是 权重 更 新 频率 略 低 。 批 次 越 小 训练 
的 速度 束 慢 。 那 么 ， 如 何 选 择 批 次 大 小 呢 ? 也 需要 结合 机 套 的 硬件 性 
能 以 及 数据 集 的 大 小 来 设 定 。 


正则 项 系数 (regularization parameter, A) 是 另 一 个 常用 的 超 参 
数 。 但 是 ， 设 定 没有 太 多 可 遵循 的 规则 ， 一 般 赁 经 验 。 一 般 来 说 ， 如 


果 在 较 复 杂 的 网 络 发 现 出 现 了 明显 的 过 拟 合 《在 训练 数据 准确 率 很 高 
但 测试 数据 准确 率 反 而 下 降 ， 可 以 考虑 增加 此 项 。 初 学 者 可 以 一 开 
始 设置 为 0， 然 后 确定 好 一 个 比较 好 的 学 习 率 后 ， 再 给 和 一 个 值 ， 随 后 
根据 准确 率 再 进行 精细 调整 。 


8.3 ”小结 
本 章 主 要 介绍 了 如 何 用 TensorFlow 构 建 一 个 神经 网 络 。 构 建 神经 


网 络 主要 分 为 4 个 步 又 : 构造 数据 、 构 建 网 络 、 训 练 模型 、 评 佑 及 预测 
模型 。 此 外 ， 还 介绍 了 一 些 超 参 数 设 定 的 经 验 和 技巧 。 


第 9 章 ”TensorFlow 在 MNIST 中 的 应 用 


MNIST |! (Mixed National Institute of Standards and Technology) 
是 一 个 入 门 级 的 计算 机 视觉 数据 集 ， 数 据 集中 都 是 美国 中 学 生 手 写 的 
数字 。 它 的 训练 集 包 含 6 万 张 图 片 ， 测 试 集 包含 1 万 张 图 片 ， 并 且 数 字 
已 经 进行 过 预 处 理 和 格式 化 ， 做 了 大 小 调整 并 居中 ， 图 片 尺寸 也 固定 
为 28x28。 这 个 数据 集 很 小 ， 但 训练 速度 很 快 ， 而 且 收 全 效果 也 很 好 ， 
非常 适合 作为 实战 的 例子 去 学 习 。 


接 下 来 我 们 就 以 MNIST 数 据 集 为 例 ， 答 尽 TensorFlow 在 深度 学 习 中 
的 各 种 应 用 。 


9.1 MNIST 数 据 集 简介 
MNIST 数 据 集 是 NIST 数 据 集 的 子 集 ， 包 含 以 下 4 个 文件 。 


train-labels-idx1-ubyte.gz: 训练 集 标记 文件 (28 881Z) 。 
train-images-idx3-ubyte.gz: 训练 集 图 片 文件 (9 912 422 FF) ° 
t10k-labels-idx1-ubyte.gz: 测试 集 标记 文件 (4 542 字 节 ) ° 
t10k-images-idx3-ubyte.gz: 测试 集 图 片 文件 (1 648 87777)» 


MNIST 数 据 集 包 括 训 练 集 的 图 片 和 标记 数据 ， 以 及 测试 集 的 图 片 
和 标记 数据 ， 在 测试 集 包含 的 10 000 个 样 例 中 ， 前 5 000 个 样 例 取 自 原 
始 的 NIST 训 练 集 ， 后 5 000 个 取 目 原始 的 NIST 测 试 集 ， 因 此 前 5 000 个 
预测 起 来 更 容易 些 。 


下 面具 体 讲 解 它 们 的 格式 A 。 


9.1.1 训练 集 的 标记 文件 
训练 集 标记 文件 train-labels-idx1-ubyt 的 格式 如 下 : 


[offset] [type] [value] [description] 

0000 32 bit integer 0x00000801(2049) magic number (MSB first) 
32 bit integer 60000 number of items 
unsigned byte 2? label 


unsigned byte 2? label 


unsigned byte 2? label 


其 中 ，MSB (most significant bit， 最 高 有 效 位 ) ， 在 二 进 制 数 中 ， 
MSB 是 最 高 加 权 位 ， 与 十 进 制 数字 中 最 左边 的 一 位 类 似 喇 。 通 常 ， 
MSB 位 于 二 进 制 数 的 最 左 侧 。MSB first 指 的 是 最 高 有 效 位 在 前 。 


ix magic number 是 指 写 入 ELF 格 式 (Executable and Linkable 
Format) 的 ELF 头 文件 中 的 常量 ， 检 查 这 个 数 和 目 己 设 定 的 是 否 一 八 能 
够 判断 出 文件 是 否 损坏 。 


9.1.2 ”训练 集 的 图 片 文件 
训练 集 的 图 片 文 件 train-images-idx3-ubyte 的 格式 如 下 : 


[offset] [type] [value] [description] 
0000 32 bit integer 0x00000803(2051) magic number 

0004 32 bit integer 60000 number of images 
0008 32 bit integer 28 number of rows 
0012 32 bit integer 28 number of columns 
0016 unsigned byte 2? pixel 


0017 unsigned byte 2? pixel 


XXXX unsigned byte 2? pixel 

pixel (像素 ) 的 取 值 范围 是 0-255，0-255 代 表 背 景色 (AE), 
255 代 表 前 景色 (黑色 ) 。 
9.1.3 ”测试 集 的 标记 文件 


测试 集 的 标记 文件 t10k-labels-idx1-ubyte 的 格式 如 下 : 


[offset] [type] [value] [description] 
32 bit integer 0x00000801(2049) magic number (MSB first) 
32 bit integer 10000 number of items 


unsigned byte 2? label 
unsigned byte 2? label 


unsigned byte 2? label 


9.1.4 测试 集 的 图 片 文件 
测试 集 的 图 片 文件 t10k-labels-idx1-ubyte 的 格式 如 下 : 


[offset] [type] [value] [description] 
0000 32 bit integer 0x00000803(2051) magic number 
32 bit integer number of images 
32 bit integer number of rows 
32 bit integer number of columns 


unsigned byte 27 pixel 
unsigned byte 27 pixel 


unsigned byte 27 pixel 


已 经 有 各 种 方法 被 应 用 在 MNIST 这 个 训练 集 上 ， 接 下 来 我 们 就 一 
起 来 探讨 这 些 方法 。 讨 论 这 些 方法 有 助 于 大 家 了 解 神经 网 络 的 基本 设 


计 思 想 和 TensorFlow 的 工作 流程 。 这 些 方法 的 代码 位 于 tensorflow- 


1.1.0/tensorflow/examples/tutorials/mnist/ 下。 


e mnist_softmax.py: MNIST 采 用 Softmax 回 归 训 练 。 

。 fully_connected_feed.py: MNIST 采 用 Feed 数 据 方式 训练 。 

e mnist_with_summaries.py: MNIST 使 用 卷 积 神经 网 络 (CNN) ， 并 
且 训 练 过 程 可 视 化 。 

e mnist_softmax_xla.py.py: MNIST 使 用 XLA 框 架 (参见 第 15 章 ) 。 


我 们 先 从 一 个 简单 的 Softmax 回 归 模型 开始 。 
9.2 ”MNIST 的 分 类 问题 


Softmax 回 归 可 以 解决 两 种 以 上 的 分 类 ， 该 模型 是 Logistic 回 归 模 型 
在 分 类 问题 上 的 推广 。 对 于 要 识别 0~9 这 10 类 数字 ， 首 选 Softmax 回 
归 。MNIST 的 Softmax 回 归 源 代码 位 于 tensorflow- 


1.1.0/tensorflow/examples/tutorials/mnist/mnist_softmax.py ° 


9.2.1 ”加 载 数据 


我 们 需要 导入 input_data.py 文 件 ， 使 用 tensorflow.contrib.learn 中 的 
read_data_sets 来 加 载 数据 ， 代 码 如 下 : 


from tensorflow.examples.tutorials.mnist import input_data 
import tensorflow as tf 


# 加 载 数据 
mnist = input_data.read_data_sets(FLAGS.data_dir, one_hot=True) 


其 中 ，FLAGS.data_dir 是 MNIST 所 在 的 路 径 ， 用 户 可 以 自己 指定 ; 
one_hot 标 记 则 是 指 一 个 长 度 为 n 的 数组 ， 只 有 一 个 元 素 是 1.0， 其 他 元 
素 是 0.0 〈 例 如 ， 在 an 为 4 的 情况 下 ， 标 记 2 对 应 的 one_hot 标 记 束 是 0.0 
0.0 1.0 0.0) 。 


使 用 one_hot 的 直接 原因 是 ， 我 们 使 用 0~9 个 类 别 的 多 分 类 的 输出 
层 是 softmax 层 ， 它 的 输出 是 一 个 概率 分 布 ， 从 而 要 求 输入 的 标记 也 以 
概率 分 布 的 形式 出 现 ， 进 而 可 以 计算 交叉 灯 。 


9.2.2 ”构建 回归 模型 


构建 回归 模型 ， 我 们 需要 输入 原始 真实 值 (group truth) ， 计 算 采 
用 softmax 范 数 拟 合 后 的 预测 值 ， 并 且 定 义 损失 函数 和 优化 右 : 


定义 回归 模型 
tf.placeholder(tf.float32, [None, 784]) 
tf.Variable(tf.zeros([784, 10])) 


tf.Variable(tf.zeros([10])) 
tf.matmul(x, W) + b # 预测 值 


在 这 里 ， 我 们 要 求 TensorFlow 用 梯度 下 降 算法 以 0.5 的 学 习 率 最 小 
化 交叉 箭 。 在 这 里 也 可 以 采用 其 他 优化 器 ， 只 需要 调整 
tf.train.GradientDescentOptimizer 妈 可。 


# 定义 损失 函数 和 优化 器 
y_ = tf.placeholder(tf.float32, [None, 10]) # 输入 的 真实 值 的 占 位 符 


# 我 们 用 tf.nn.softmax_cross_entropy_with_logits 来 计算 预测 值 y 与 真实 值 
y_ 的 差 值 ， 并 取 均 值 

cross_entropy = 
tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(y, y_)) 

# 采用 SGD 作 为 优化 器 

train_step = 


tf.train.GradientDescentOptimizer(0.5).minimize(cross_entropy) 


9.2.3 ”训练 模型 


已 经 设置 好 了 模型 ， 在 训练 之 前 ， 需 要 先 初 始 化 我 们 创建 的 变 
量 ， 以 及 在 会 话 中 启动 模型 。 


# 这 里 使 用 InteractiveSession( ) 来 创建 交互 式 上 下 文 的 TensorFlow 会 话 
# 与 常规 会 话 不 同 的 是 ， 交 互 式 会 话 会 成 为 默认 会 话 
# 方 法 (如 tf.Tensor .eval 和 tf.0peration.run) 都 可 以 使 用 该 会 话 来 运行 操作 
(OP) 

sess = tf.InteractiveSession( ) 
tf.global_variables_initializer().run() 


我 们 让 模型 循环 训练 1000 次 ， 在 每 次 循环 中 我 们 都 随机 抓 取 训练 
数据 中 100 个 数据 点 ， 来 欧 换 之 前 的 占 位 符 。 


# Train 
for _ in range(1000): 


batch_xs, batch_ys = mnist.train.next_batch(100) 
sess.run(train_step, feed_dict={x: batch_xs, y_: batch_ys}) 


这 种 训练 方式 称 为 随机 训练 (stochastic training) ， 使 用 SGD 方 法 
进行 梯度 下 降 ， 也 就 是 每 次 从 训练 数据 集中 随机 抓 取 一 小 部 分 数据 进 
行 梯度 下 降 训练 。 正 如 我 们 在 4.7.5 广 中 讲 到 的 ， 与 每 次 对 所 有 训练 数 
据 进 行 计 算 的 BGD 相 比 ，SGD 既 能 够 学 习 到 数据 集 的 总 体 特征 ， 又 能 
够 加 速 训练 过 程 。 


模型 训练 好 了 之 后 ， 如 何 来 评估 模型 的 性 能 呢 ? 
9.2.4 ”评估 模型 


tf.argmax(y,1) 返 回 的 是 模型 对 任 一 输入 x 预测 到 的 标记 值 ， 
tf.argmax(y_,1) 代 表 正 确 的 标记 值 。 我 们 用 tf.equal 来 检测 预测 值 和 真实 
值 古 否 匹 配 ， 并 且 将 预测 后 得 到 的 布尔 值 转化 成 浮 点 数 ， 并 取 平 均 
值 。 代 码 如 下 : 


评估 训练 好 的 模型 
orrect_prediction = tf.equal(tf.argmax(y, 1), tf.argmax(y_, 1)) 
计算 预测 值 和 真实 值 


ccuracy = tf.reduce_mean(tf.cast(correct_prediction, 


floats2)) # RAR CAR AR, 并 取 平 均值 ， 得 到 准确 率 
计算 模型 在 测试 集 上 的 准确 率 
print(sess. runt accuracy; feed_dict={x: mnist.test.images, 
y_: mnist.test.labels}) ) 


评估 模型 输出 的 结果 为 : 


0.9179 


也 就 是 说 ， 最 终 的 准确 率 是 91.7% © fe TARIH ERANA 
(CNN) 模型 ， 配 合 TensorBoard 可 视 化 工具 ， 直 观 地 看 看 在 训练 过 程 
中 都 发 生 了 什么 ， 以 及 能 不 能 得 到 更 高 的 准确 率 。 


9.3 ”训练 过 程 的 可 视 化 


TensorFlow 为 我 们 提供 了 现成 的 神经 网 络 的 可 视 化 例子 。 下 面 我 们 
就 以 MNIST 为 例 ， 看 看 训练 过 程 中 究竟 发 生 了 什么 。 源 代码 详 见 
tensorflow-1.1.0/tensorflow/examples/tutorials/mnist/mnist_ 


with_summaries.py ° 


我 们 知道 ， 采 用 TensorBoard 可 视 化 的 原理 在 于 ， 在 训练 的 过 程 
中 ， 记 录 下 结构 化 的 数据 ， 然 后 运行 一 个 本 地 服务 右 ， 监 听 6006 端 
口 。 当 在 浏览 器 中 请 求 页 面 时 ， 分 析 记 录 的 数据 ， 绘 制 成 统计 图 表 及 
计算 图 展示 出 来 。 


我 们 先 直 接 运 行 脚本 ， 看 会 有 哪些 结 来: 


python mnist_with_summaries.py 


得 到 的 命令 行 输出 如 下 : 


Successfully downloaded train-images-idx3-ubyte.gz 9912422 bytes. 
Extracting /tmp/tensorflow/mnist/input_data/train-images-idx3- 
ubyte .gz 

Successfully downloaded train-labels-idx1-ubyte.gz 28881 bytes. 
Extracting /tmp/tensorflow/mnist/input_data/train-labels-idx1- 
ubyte.gz 

Successfully downloaded ti0k-images-idx3-ubyte.gz 1648877 bytes. 
Extracting /tmp/tensorflow/mnist/input_data/t10k - images -idx3- 
ubyte.gz 

Successfully downloaded ti0k-labels-idx1i-ubyte.gz 4542 bytes. 
Extracting /tmp/tensorflow/mnist/input_data/t10k-labels-idx1- 
ubyte.gz 

Accuracy at step 0: 0.1168 


Accuracy at step 10: 0.6744 
Accuracy at step 20: 0.803 
Accuracy at step 30: 0.8496 
Accuracy at step 40: 0.8822 
Accuracy at step 50: 0.8857 
Accuracy at step 60: 0.8897 
Accuracy at step 70: 0.8883 
Accuracy at step 80: 0.8884 
Accuracy at step 90: 0.8974 


Adding run metadata for 99 
Accuracy at step 100: 0.9062 
# 此 处 有 省 略 

Adding run metadata for 899 
Accuracy at step 900: 0.9643 
Accuracy at step 910: 0.9665 
Accuracy at step 920: 0.9662 


.9678 
.966 
.9685 


Accuracy at step 930: 
Accuracy at step 940: 
Accuracy at step 950: 


.9686 

.9651 

.9665 
999 


Accuracy at step 970: 
Accuracy at step 980: 
Accuracy at step 990: 


0 

0 

0 
Accuracy at step 960: 0.9687 

0 

0 

0 
Adding run metadata for 


这 个 例子 会 把 它 训练 过 程 中 的 数据 存储 在 /tmp/tensorflow/mnist H 
录 中 ， 这 个 路 径 可 以 通过 命令 行 参 数 --log dir 指定。 


一 


在 /tmp/tensorflow/mnist 中 运行 tree 命 令 ， 结 果 如 下 : 


input_data # 存放 训练 数据 
t10k-images-idx3-ubyte.gz 
t10k-labels-idx1-ubyte.gz 
train-images-idx3-ubyte.gz 
train-labels-idx1-ubyte.gz 
logs # 训练 结果 日 志 
L— mnist_with_summaries 
test # 测试 集结 果 日 志 
L— events.out.tfevents.1484255500.baidudeMacBook- 


. local 
L— train #4 训练 集结 果 日 志 
L— events.out.tfevents.1484255499.baidudeMacBook - 
. local 


iAfttensorboardin<S, FTF Motes, BAUS A ULAR © I 
时 ， 需 要 加 上 参数 ljogdir， 标 明日 志文 件 的 存储 路 径 ， 方 法 如 下 : 


tensorboard -- 


logdir=/tmp/tensorflow/mnist/logs/mnist_with_summaries 


而 这 个 路 径 是 在 创建 摘要 的 文件 写 入 符 (FileWriter) 时 指定 的 ， 
如 下 : 


# sess.graph 是 图 的 定义 ， 本 人 句 的 含义 是 使 图 可 视 化 


file writer = tf.summary.FileWriter('/path/to/logs', sess.graph) 


输出 结 来 如 下 : 


Starting TensorBoard 39 on port 6006 
(You can navigate to http://192.168.0.101:6006) 


在 浏览 器 中 打开 http://192.168.0.101:6006 就 进入 了 可 视 化 的 操作 界 
面 ， 如 图 9-1 所 示 。 


TensorBoard 


Write a regex to create a tag group x accuracy_1 


问 Split on underscores cross_entropy-1 


口 pata download links dropout 
Tooltip sorting method: default layer1 
layer2 
Smoothing 


一 0.6 


Horizontal Axis 
STEP RELATIVE WALL 


Runs 
Write a regex to filter runs 
E O test 0 


TOGGLE ALL RUNS 


/tmp/tensorflow/mnist/logs/mnist_with_ 
summaries 


图 9-1 


接 下 来 就 可 以 进入 各 个 面板 查看 数据 流 图 和 直方 图 了 ， 这 部 分 内 
容 请 参考 3.2 节 中 关于 TersorBoard 可 视 化 面板 的 介绍 。 


我 们 曾 在 4.4.2 廊 讲解 过 与 可 视 化 实现 相关 的 API， 这 里 我 们 整 用 本 
方 的 例子 来 具体 看 看 如 何 实 现 可 视 化 。 


从 图 9-1 可 以 看 出 ， 给 一 个 张 量 深 加 多 个 摘要 接 述 的 钞 数 为 


variable summaries， 如 下 : 


def variable_summaries(var): 
""" 对 一 个 张 量 添加 多 个 摘要 描述 """ 
with tf.name_scope('summaries'): 
mean = tf.reduce_mean(var) 
tf.summary.scalar('mean', mean) # 均值 
with tf.name_scope('stddev'): 


stddev = tf.sqrt(tf.reduce_mean(tf.square(var - mean) )) 
tf.summary.scalar('stddev', stddev) # 标准 差 
tf.summary.scalar('max', tf.reduce_max(var)) # 最 大 值 
tf.summary.scalar('min', tf.reduce_min(var)) # 最 小 值 
tf.summary.histogram('histogram', var) 


这 里 绘制 出 的 每 一 层 的 均值 、 标 准 差 、 最 大 值 和 最 小 值 在 
SCALARS 面 板 中 ， 如 图 9-2 所 示 。 
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a 0.6 z a 
ao | eT 
Horizontal Axis 要 [ 
| sm RELA 0.000 300.0 6 
Se er1 /weights/summ 
A 
Runs > Si 
0.280 ze 
0.240 aT 
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图 9-2 


在 构建 网 络 模型 的 过 程 中 ， 对 weights 和 biases 均 调用 


variable_summaries， 并 对 每 一 层 采 用 tf.summary.histogram 绘 制 张 量 经 六 


激活 函数 前 后 的 变化 。 


ie 


def nn_layer(input_tensor, input_dim, output_dim, layer_name, 
act=tf.nn.relu): 
# 为 确保 计算 图 中 各 个 层 的 分 组 ， 给 每 一 层 添加 一 个 hame_scope 
with tf.name_scope(layer_name): 
with tf.name_scope('weights'): 
weights = weight_variable([input_dim, output_dim] ) 
variable_summaries(weights) 
with tf.name_scope('biases'): 
biases = bias_variable([output_dim] ) 
variable _summaries(biases) 
with tf.name_scope('wx_plus_b'): 
preactivate = tf.matmul(input_tensor, weights) + biases 
tf.summary.histogram('pre_activations', preactivate) # 激活 
前 的 直方 图 
activations = act(preactivate, name='activation' ) 
tf.summary.histogram('activations', activations) # 激活 后 的 直方 


图 


return activations 


绘制 出 的 图 形 在 HISTOGRAMS 面 板 中 ， 如 图 9-3 所 示 。 
绘制 准确 率 和 交叉 炉 采用 的 方法 为 : 


.Summary.scalar('cross_entropy', cross_entropy) 


.Summary.scalar('accuracy', accuracy) 


绘制 出 的 图 形 在 SCALARS 面 板 中 ， 如 图 9-4 所 示 。 
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图 9-4 


layerl/activations 
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train 


读者 可 以 目 行 探索 更 多 的 可 视 化 组 合 方法 ， 充 分 利用 好 
TensorBoard 工 具 。 我 们 接 下 来 就 讲解 CNN 在 TensorFlow 上 如 何 构建 。 


9.4 ”MNIST 的 卷 积 神经 网 络 II 


本 厄 我 们 将 学 习 用 TensorFlow 搭 建 一 个 卷 积 神经 网 络 (CNN) 模 
型 ， 并 用 它 来 训练 MNIST 数 据 集 © 


同样 ， 构 建 的 流程 也 是 先 加 载 数据 ， 再 构建 网 络 模型 ， 最 后 训练 
和 评估 模型 。 


9.4.1 ”加载 数据 
先导 入 必要 的 库 ， 如 下 : 


import tensorflow as tf 
import numpy as n 


from tensorflow.examples.tutorials.mnist import input_data 


ik — 7 A_E—MNISTHY IB] AB Ae AE], AN Eat o 
9.4.2 构建 模型 
构建 一 个 CNN 模 型 ， 需 要 以 下 几 步 。 


(1) 定义 输入 数据 并 预 处 理 数据 。 这 里 ， 我 们 首先 读 取 数据 
MNIST， 并 分 别 得 到 训练 集 的 图 片 和 标记 的 答 阵 ， 以 及 测试 集 的 图 片 
和 标记 的 矩阵 。 代 码 如 下 : 


import tensorflow as tf 
import numpy as np 
from tensorflow.examples.tutorials.mnist import input_data 


mnist = input_data.read_data_sets("MNIST_data/", one_hot=True) 
trx, trY, tex, teY = mnist.train.images, mnist.train.labels, 
mnist.test.images, mnist.test.labels 


其 中 ，mnist 是 TensorFlow 的 tensorflow.contrib.learn 中 的 Datasets , 


其 值 如 下 : 


Datasets(train= 
<tensorflow.contrib.learn.python.learn.datasets.mnist.DataSet 
object at 0x110987cd0>, validation= 
<tensorflow.contrib.learn.python.learn.datasets. mnist.DataSet 
object at 0x110987d10>, test= 
<tensorflow.contrib.learn.python.learn. datasets.mnist.DataSet 
object at 0x110987d50>) 


trX、trY,、teX、teY 是 数据 的 矩阵 表现 ， 其 值 类 似 于 : 


接着 ， 需 要 处 理 输入 的 数据 ， 把 上 述 wX 和 teX 的 形状 变 为 
[-128,28,1]，-1 表 示 不 考虑 输入 图 乒 的 数量 ，28x28 是 图 片 的 长 和 视 的 
1 是 通道 (channel) OT 所 以 
通道 是 1， 如 果 是 RGB 彩 色 图 像 ， 通 道 是 3。 


trX.reshape(-1, 28, 28, 1) # 28x28x1 input img 
tex.reshape(-1, 28, 28, 1) # 28x28x1 input img 


tf.placeholder("float", [None, 28, 28, 1]) 
tf.placeholder("float", [None, 10]) 


(2) 初始 化 权重 与 定义 网 络 结构 。 这 里 ， 我 们 将 要 构建 一 个 拥有 
3 个 郑 积 层 和 3 个 池 化 层 ， 随 后 接 1 个 全 连接 层 和 1 个 输出 层 的 卷 积 神经 
网 络 。 首 先 定 义 初始 化 权重 的 函数 : 


def init_weights(shape): 
return tf.Variable(tf.random_normal(shape, stddev=0.01)) 


切 始 化 权重 方法 如 下 ， 我 们 设置 卷 积 核 的 大 小 为 3x3: 


w = init_weights([3, 3, 1, 32]) # patch 大 小 为 3x3， 输 入 维 
为 1， 输 出 维度 为 32 
w2 = init_weights([3, 3, 32, 64]) # patch 大 小 为 3x3， 输 入 维 
为 32， 输 出 维度 为 64 
w3 = init_weights([3, 3, 64, 128]) # patch 大 小 为 3x3， 输 入 维 
为 64， 输 出 维度 为 128 

w4 = init weights([128 * 4 * 4, 625]) 全 连接 层 ， 输 入 维度 为 128 x 
4 x 4, 是 上 一 层 的 输出 数据 又 三 维 的 转变 成 一 维 ， 输出 维度 为 625 

wo = init_weights([625, 10]) # 输出 层 ， 输 入 维度 为 625， 输 出 维度 为 10， 
代表 10 类 (labels) 


随后 ， 定 义 一 个 模型 钞 数 ， 代 码 如 下 : 


# 神经 网 络 模型 的 构建 画 数 ， 传 入 以 下 参数 


# X: 输入 数据 
# W: 每 一 层 的 权重 
# p_keep_conv, p_keep_hidden: dropout 


留 的 神经 元 比例 


rá; 


def model(X, w, w2, w3, w4, w_o, p_keep_conv, p_keep_hidden): 
# 第 一 组 卷 积 层 及 池 化 层 Z, 最 后 dropout 些 神经 元 


lia = tf.nn.relu(tf.nn.conv2d(X, w, strides=[1, 1, 1, 1], 
padding='SAME' ) ) 

# lia shape=(?, 28, 28, 32) 

11 = tf.nn.max_pool(lia, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 
1], padding='SAME' ) 

# 11 shape=(?, 14, 14, 32) 

11 = tf.nn.dropout(11, p_keep_conv) 


# 第 二 组 卷 积 层 及 池 化 层 ， 最 后 dropout 一 些 神经 元 

12a = tf.nn.relu(tf.nn.conv2d(11, w2, strides=[1, 1, 1, 1], 
padding='SAME' ) ) 

# 12a shape=(?, 14, 14, 64) 

12 = tf.nn.max_pool(1l2a, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 
1], padding='SAME' ) 

# 12 shape=(?, 7, 7, 64) 

12 = tf.nn.dropout(12, p_keep_conv) 


# 第 三 组 卷 积 层 及 池 化 层 ， 最 后 dropout 一 些 神经 元 

13a = tf.nn.relu(tf.nn.conv2d(12, w3, strides=[1, 1, 1, 1], 
padding='SAME' ) ) 

# 13a shape=(?, 7, 7, 128) 

13 = tf.nn.max_pool(1l3a, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 
1], padding='SAME' ) 

# 13 shape=(?, 4, 4, 128) 

13 = tf.reshape(13, [-1, w4.get_shape().as_list()[0]]) # 
reshape to (?, 2048) 

13 = tf.nn.dropout(13, p_keep_conv) 


全 连接 层 ， 最 后 dropout 一 些 神经 元 
tf.nn.relu(tf.matmul(13, w4)) 
tf.nn.dropout(14, p_keep_hidden) 


# 输出 层 
pyx = tf.matmul(14, w_o) 
return pyx # 返 回 预测 值 


我 们 定义 dropout 的 占 位 符 一 keep_conv， 它 表示 在 一 层 中 有 多 少 
比例 的 神经 元 被 保留 下 来 。 和 生成 网 络 模型 ， 得 到 预测 值 ， 如 下 : 


p_keep_conv = tf.placeholder("float") 
p_keep_hidden = tf.placeholder("float") 


py_x = model(X, w, w2, w3, w4, w_o, p_keep_conv, p_keep_hidden) # 得 
到 预测 值 


接 下 来 ， 定 义 损失 函数 ， 这 里 我 们 仍然 采用 
tf.nn.softmax_cross_entropy_with_logits 玉 比较 预测 值 和 真实 值 的 差异 ， 
并 做 均值 处 理 ， 定 义 训练 的 操作 (train_op) ， 采 用 实现 RMSProp 算 法 
的 优化 器 tf.train.RMSPropOptimizer， 学 习 率 为 0.001， 衰 减 值 为 0.9， 使 
损失 最 小 ， 定 义 预测 的 操作 (predict_op) 。 具 体 如 下 : 


cost = tf.reduce_mean(tf.nn. 
softmax_cross_entropy_with_logits(logits=py_x, labels=Y) ) 


train_op = tf.train.RMSPropOptimizer(0.001, ©.9).minimize(cost ) 
predict_op = tf.argmax(py_x, 1) 


9.4.3 ”训练 模型 和 评估 模型 
先 定义 训练 时 的 批 次 大 小 和 评估 时 的 批 次 大 小 ， 如 下 : 


batch_size = 128 
test_size = 256 


在 一 个 会 话 中 局 动 图 ， 开 始 训练 和 评估 : 


# Launch the graph in a session 

with tf.Session() as sess: 
# you need to initialize all variables 
tf. global_variables_initializer().run() 


for i in range(100): 
training_batch = zip(range(0, len(trxX), batch_size), 
range(batch_size, len(trX)+1, batch_size) ) 
for start, end in training_batch: 
sess.run(train_op, feed_dict={X: trX[start:end], Y: 
trY[start:end], 
p_keep_conv: 0.8, 

p_keep_hidden: 0.5}) 


test_indices = np.arange(len(tex)) # Get A Test Batch 


np.random.shuffle(test_indices) 
test_indices = test_indices[0:test_size] 


print(i, np.mean(np.argmax(teY[test_indices], axis=1) == 
sess.run(predict_op, feed_dict={x: 
tex[test_indices], 
p_keep_conv: 


1.0, 


1.0}))) 


p_keep_hidden: 


结 采 如 下 : 


0 0.96484375 
1 0.984375 

2 0.98828125 
3 0.9921875 

4 0.9921875 

5 1.0 

6 0.99609375 
7 0.9921875 

8 0.9921875 

9 0.98046875 
10 0.9921875 
11 0.984375 
12 0.984375 
13 1.0 

14 0.9921875 
15 0.9921875 
16 0.98828125 
17 0.9921875 
18 1.0 

19 1.0 

20 0.99609375 
# 此 处 有 省 略 

71 0.98828125 
72 0.99609375 
73 1.0 

74 0.99609375 
75 1.0 

76 0.9921875 
77 0.9921875 
78 0.99609375 
79 0.99609375 
80 1.0 

81 0.99609375 
82 0.9921875 


上 面 输出 了 训练 的 次 数 和 准确 度 的 关系 。 可 以 看 出 ， 当 训练 100 
轮 后 精确 率 已 经 接近 99.22% © 


OOOOPAOOPOOOOOOOOO 


99609375 
99609375 
99609375 
99609375 
9765625 
99609375 
984375 
984375 
98828125 
0 
99609375 
9921875 
0 
99609375 
99609375 
9921875 
9921875 


年 过 回归 模型 和 眷 积 神经 网 络 模型 ， 可 以 看 出 卷 积 神经 网 络 的 效 


通 


果真 的 是 非常 好 。 如 采 把 循环 神经 网 络 (RNN) 应 用 再 MNIST 上 会 怎 


么 样 呢 ? 


9.5 


RNN 在 目 然 语 言 处 理 领 域 的 已 下 几 个 方 同 应 用 得 非常 成 功 : 


MNIST 的 循环 神经 网 络 ll 


本 贡 学 习 用 TensorFlow 搭 建 一 个 循环 神经 网 络 (RNN) 模型 ， 并 用 
它 来 训练 MNIST 数 据 集 。 


。 机 器 翻译 


。 语 首 识 别 ; 


。 图像 描述 生成 〈 把 RNN 和 CNN 结 合 ， 根 据 图 像 的 特征 生成 描述 ， 
在 第 12 章 用 “看 图 说 话 ” 讲 解 ) ; 

。 语言 模型 与 文本 生成 ， 即 利用 生成 的 模型 预测 下 一 个 单词 的 可 能 
性 。 


更 多 的 资料 读者 可 参考 Alex Graves 的 论文 《Supervised Sequence 
Labelling with Recurrent Neural Networks) [| o 


9.5.1 ”加 载 数 据 

这 一 步 和 9.2.1PMNIST 的 回归 模型 相同 ， 请 读者 参考 ， 不 再 发 
9.5.2 ”构建 模型 

首先 ， 设 置 训 练 的 超 参 数 ， 分 别 设 置 学 习 率 、 训 练 次 数 和 每 轮训 
练 的 数据 大 小 : 


# 设置 训练 的 超 参数 
lr = 0.001 


training_iters = 100000 
batch_size = 128 


为 了 使 用 RNN 来 分 类 图 片 ， 我 们 把 每 张 图 片 的 行 看 成 是 一 个 像素 
序列 (sequence) 。 因 为 MNIST 图 片 的 大 小 是 28x28 像 素 ， 所 以 我 们 把 
每 一 个 图 像样 本 看 成 一 行 行 的 序列 。 因 此 ， 共 有 (28 个 元 素 的 序列 ) x 

(28 行 ) ， 然 后 每 一 步 输入 的 序列 长 度 是 28， 输 入 的 步 数 是 28 步 。 下 
面 定义 RNN 的 参数 : 


# 神经 网 络 的 参数 

n_input = 28 # 输入 层 的 n 

n_steps = 28 # 28 长 度 

n_hidden_units = 128 # 隐藏 层 的 神经 元 个 数 

n_classes = 10 # 输出 的 数量 ， 即 分 类 的 类 别 ，0 一 9 个 数字 ， 共 有 10 个 


定义 输入 数据 及 权重 : 


= 


A 占 位 符 
f.placeholder(tf.float32, [None, n_steps, n_inputs]) 
f.placeholder(tf.float32, [None, n_classes]) 


t 
t 


= { 

# (28, 128) 

‘in': tf.Variable(tf.random_normal([n_inputs, n_hidden_units])), 

# (128, 10) 

‘out': tf.Variable(tf.random_normal([n_hidden_units, n_classes])) 
} 
biases = { 

# (128, ) 

‘in': tf.Variable(tf.constant(0.1, shape=[n_hidden_units, ])), 

# (10, ) 

‘out': tf.Variable(tf.constant(@.1, shape=[n_classes, ])) 
} 


定义 RNN 模 型 ; 


def RNN(X, weights, biases): 


# 把 输入 的 X 转 换 成 X ==> (128 batch * 28 steps, 28 inputs) 
X = tf.reshape(X, [-1, n_inputs]) 

# 进入 隐藏 层 

# X_in = (128 batch * 28 steps, 128 hidden) 

X_in = tf.matmul(X, weights['in']) + biases['in' ] 

# X_in ==> (128 batch, 28 steps, 128 hidden) 

X_in = tf.reshape(X_in, [-1, n_steps, n_hidden_units] ) 


# 这 里 采用 基本 的 LSTM 循 环 网 络 单元 : basic LSTM Cell 
lstm cell = tf.contrib.rnn.BasicLSTMCell(n_hidden_units, 
forget_bias=1.0, 


state_is_tuple=True) 
# 初始 化 为 零 值 ，Lstm 单 元 由 两 个 部 分 组 成 : (c_state, h_state) 
init_state = lstm_cell.zero_state(batch_size, dtype=tf.float32) 


# dynamic_rnn kÆ (batch, steps, inputs)#k#(steps, batch, 
inputs) fFAX_in 

outputs, final_state = tf.nn.dynamic_rnn(lstm_cell, X_in, 
initial_ state= 


init_state, 
time_major=False) 


results = tf.matmul(final_state[1], weights['out']) + 
biases['out' ] 
return results 


RE GHAR BAN has, TG eA AdamOptimizer ° 


pred = RNN(x, weights, biases) 

cost = 
tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(logits=pred, 
labels=y) ) 

train_op = tf.train.AdamOptimizer(1r).minimize(cost) 


定义 模型 预测 结 来 及 准确 率 计算 方法 : 


correct_pred = tf.equal(tf.argmax(pred, 1), tf.argmax(y, 1)) 
accuracy = tf.reduce_mean(tf.cast(correct_pred, tf.float32)) 


9.5.3 ”训练 数据 及 评估 模型 
在 一 个 会 话 中 启动 图 ， 开 始 训 练 ， 每 20 次 输出 1 次 准确 率 的 大 小 : 


with tf.Session() as sess: 
sess.run(tf.global_variables_initializer()) 
step = 0 
while step * batch_size < training_iters: 
batch_xs, batch_ys = mnist.train.next_batch(batch_size) 
batch_xs = batch_xs.reshape([batch_size, n_steps, n_inputs]) 


sess.run([train_op], feed_dict={ 
x: batch_xs, 
y: batch_ys, 

}) 

if step % 20 == 0: 
print(sess.run(accuracy, feed_dict={ 
X: batch_xs, 
y: batch_ys, 


结果 如 下 : 


.117188 
. 640625 
. 726562 
. 695312 
. 859375 
. 773438 
. 90625 
此 处 有 省 略 
. 960938 
.945312 
.953125 
.976562 
.96875 
.953125 
.96875 
.960938 
.96875 
.960938 
.976562 
.96875 
.921875 
.96875 
.984375 
.9375 


OOOOOOOOOOOOOOOOHtHOOOO0OOO0O 


可 以 看 出 ， 准 确 率 接近 93%， 准 确 率 不 如 CNN 模 型 。 


9.6 ”MNIST 的 无 监督 学 习 


本 节 将 介绍 基于 无 监督 学 习 的 一 个 简单 应 用 一 一 自 编 码 器 
(autoencoder) ， 并 学 习 用 TensorFlow 搭 建 一 个 自 编 码 网 络 ， 并 用 它 在 
MNIST 数 据 集 上 训练 。 


9.6.1 ” 自 编 码 网 络 [7] 

前 面 讲 到 的 都 是 有 监督 学 习 ， 它 的 重要 特征 是 数据 都 是 有 标记 
的 ， 无 标记 的 数据 应 该 用 什么 样 的 网 络 模型 来 学 习 呢 ? 下 面 我 们 束 介 
绍 一 个 网 络 模型 __ 自 编码 网 络 。 


自 编码 网 络 模型 如 图 9-5 所 示 。 [ 引 


目 编码 网 络 的 作用 是 将 输入 样本 压缩 到 隐藏 层 ， 然 后 解压 ， 在 输 
出 端 重建 样本 。 最 终 输 出 层 神 经 元 数量 等 于 输入 层 神经 元 的 数量 。 


这 里 面 主 要 有 两 个 过 程 : 压缩 和 解压。 压缩 依 徘 的 是 输入 数据 

(图 像 、 文 字 、 声 音 ) 本 身 存在 不 同 程度 的 见 余 信息 ， 自 动 编码 网 络 
通过 学 习 去 掉 这 些 元 余 信息 ， 把 有 用 的 特征 输入 到 隐藏 层 中 。 这 里 和 
主 成 分 分 析 (principal components analysis, PCA 9!) 有 些 类 似 ， 要 找 
到 可 以 代表 源 数据 的 主要 成 分 。 其 实 ， 如 果 激 活 函 数 不 使 用 sigmoid 等 
非 线 性 函数 ， 而 使 用 线性 函数 ， 束 是 PCA 模 型 。 可 以 想象 ， 如 有 果 数 据 
都 是 完全 随机 、 相 互 独立 、 同 分 布 的 ， 自 编码 网 络 就 很 难 学 习 到 一 个 
有 效 的 压缩 模型 


hy (x) 


图 9-5@ 
压缩 过 程 一 方面 要 限制 隐 尖 神经 元 的 数量 ， 来 学 习 一 些 有 意义 的 
特征 ， 男 一 方面 还 希望 神经 元 大 部 分 时 间 是 被 抑制 的 ， 当 神经 元 的 输 


出 接近 1 时 认为 是 被 激活 的 ， 接 近 0 时 认为 是 被 抑制 的 。 和 希望 部 分 神经 
元 处 于 被 抑制 状态 ， 这 种 规则 称 为 稀 朴 性 限制 。 


多 个 隐藏 层 的 主要 作用 是 ， 如 果 输 入 的 数据 是 图 像 ， 第 一 层 会 学 
习 如 何 识别 边 ， 第 二 层 会 学 习 如 何 去 组 合 边 ， 从 而 构成 轮廓 、 角 等 
更 高 层 会 学 习 如 何 去 组 合 更 有 意义 的 特征 。 例 如 ， 如 果 输 入 数据 是 人 
脸 图 像 的话 ， 更 高 层 会 学 习 如 何 识别 和 组 合 眼睛 、 鼻 子 、 路 等 人 脸 器 


F 


E o 


9.6.2 ”TensorFlow 的 自 编码 网 络 实现 [10] 

下 面 我 们 还 以 MNIST 数 据 集 为 例 ， 讲 解 一 下 目 编 码 句 的 运用 。 
1. 加 载 数 据 

先导 入 必要 的 库 ， 如 下 : 


import tensorflow as tf 
import numpy as np 


from tensorflow.examples.tutorials.mnist import input_data 


2. 构建 模型 


首先 ， 设 置 训 练 的 超 参数 ， 包 括 学 习 率 、 训 练 的 轮 (epoch) 数 
(全 部 数据 训 完 一 过 成 为 一 轮 ) 、 每 次 训练 的 数据 多 少 、 每 隔 多 少 轮 
显示 一 次 训练 结果 : 


# 设置 训练 超 参数 

learning_rate = 0.01 # 学 习 率 
training_epochs = 20 # 训练 的 轮 数 
batch_size = 256 # 每 次 训练 的 数据 多 少 


display_step = 1 # 每 隔 多 少 轮 显示 一 次 训练 结果 


还 要 设置 其 他 参数 变量 ， 表 示 从 测试 集中 选择 10 张 图 片 去 验证 目 
动 编码 右 的 结 


examples_to_show = 10 


然后 定义 输入 数据 ， 这 里 是 无 监督 学 习 ， 所 以 只 需要 输入 图 片 数 
据 ， 不 需要 标记 数据 。 


X = tf.placeholder("float", [None, n_input]) 


随后 初始 化 权重 与 定义 网 络 结构 。 我 们 设计 这 个 自动 编码 网 络 含 
有 两 个 隐藏 层 ， 第 一 个 隐 尖 层 神 经 元 为 256 个 ， 第 二 个 隐 源 层 神 经 元 为 
128 个 。 定 义 网 络 参 数 如 下 : 


# 网 络 参数 
n_hidden_1 = 256 # 第 一 个 隐藏 层 神经 元 个 数 ， 也 是 特有 


n_hidden_2 = 128 # 第 二 个 隐藏 层 神经 元 个 数 ， 也 是 特 行 
n_input = 784 # 输入 数据 的 特征 值 个 数 : 28x28=784 


Mate ANA ee, WT: 


weights = { 

‘encoder_hi': tf.Variable(tf.random_normal([n_input, 
n_hidden_1])), 

"encoder_h2': tf.Variable(tf.random_normal([n_hidden_1, 
n_hidden_2])), 

‘decoder_hi': tf.Variable(tf.random_normal([n_hidden_2, 
n_hidden_1])), 

"decoder_h2': tf.Variable(tf.random_normal([n_hidden_1, 


n_input])), 
} 


biases = { 
"encoder_b1i': tf.Variable(tf.random_normal([n_hidden_1])), 
"encoder_b2': tf.Variable(tf.random_normal([n_hidden_2])), 
‘decoder_b1i': tf.Variable(tf.random_normal([n_hidden_1])), 
"decoder_b2': tf.Variable(tf.random_normal([n_input])), 


} 


接 痢 ， 定 义 目 动 编码 模型 的 网 络 结构 ， 包 括 压缩 和 解 讨 两 个 过 
程 : 


# 定义 压缩 函数 
def encoder(x): 
# Encoder Hidden layer with sigmoid activation #1 
layer_1 = tf.nn.sigmoid(tf.add(tf.matmul(x, 
weights['encoder_h1i']), 
biases[ 'encoder_bi'])) 
# Decoder Hidden layer with sigmoid activation #2 
layer_2 = tf.nn.sigmoid(tf.add(tf.matmul(layer_1, 
weights['encoder_h2']), 
biases[ 'encoder_b2'])) 
return layer_2 


# 定义 解压 函数 


def decoder(x): 
# Encoder Hidden layer with sigmoid activation #1 
layer_1 = tf.nn.sigmoid(tf.add(tf.matmul(x, 
weights['decoder_h1i']), 


biases[ 'decoder_bi'])) 
# Decoder Hidden layer with sigmoid activation #2 
layer_2 = tf.nn.sigmoid(tf.add(tf.matmul(layer_1, 
weights['decoder_h2']), 
biases[ 'decoder_b2'])) 
return layer_2 
# 构建 模型 
encoder_op encoder(X) 
decoder_op decoder(encoder_op 


接着 ， 我 们 构建 损失 函数 和 优化 器 。 这 里 的 损失 函数 用 “最 小 二 乘 
法 ?对 原始 数据 集 和 输出 的 数据 集 进 行 平方 过 并 取 均 值 运算 ; ae oR 


用 RMSPropOptimizer ° 


寻 出 预测 值 
d = decoder_op 


RR, 即 输入 值 


损失 函数 和 优化 器 
cost = tf.reduce_mean(tf.pow(y_true - y_pred, 2)) 
optimizer = tf.train.RMSPropOptimizer(learning_rate) .minimize(cost) 


训练 数据 及 评估 模型 
在 一 个 会 话 中 局 动 图 ， 开 始 训练 和 评估 : 


with tf.Session() as sess: 
sess.run(init) 
total_batch = int(mnist.train.num_examples/batch_size) 
# 开始 训练 


for epoch in range(training_epochs): 


for i in range(total_batch): 
batch_xs, batch_ys = mnist.train.next_batch(batch_size) 
# Run optimization op (backprop) and cost op (to get loss 
value) 
_, C = sess.run([optimizer, cost], feed_dict={X: batch_xs}) 
一 轮 ， 打 印 出 一 次 损失 值 
if epoch % display_step == 0: 
print("Epoch:", '%04d' % (epoch+1), "cost=", 
{:.9f}".format(c)) 


print("Optimization Finished!") 


# 对 测试 集 应 用 训练 好 的 自动 编码 网 
encode_decode = sess.run(y_pred, feed_dict={X: 
mnist.test.images[:examples_ to_show]}) 
# 比较 测试 集 原始 图 片 和 自动 编码 网 络 的 重建 结果 
f, a = plt.subplots(2, 10, figsize=(10, 2)) 
for i in range(examples_to_show): 
a[O][i].imshow(np.reshape(mnist.test.images[i], (28, 28))) # 测 试 


att 


a[1][i].imshow(np.reshape(encode_decode[i], (28, 28))) # 重建 结 


f.show() 
plt.draw() 
plt.waitforbuttonpress() 


Avot T ERRE, RA T : 


.210102022 
. 175847366 
.161052987 
. 149544969 
.142014906 
. 135422051 
. 131084189 
.127 759427 
. 124004595 
. 123085082 
.117432065 
.119511291 
.115581676 
.113403663 
.110742018 
.111147717 
. 105923556 
.105761752 


Epoch: cost= 
Epoch: cost= 
Epoch: cost= 
Epoch: cost= 
Epoch: cost= 
Epoch: cost= 
Epoch: cost= 
Epoch: cost= 
Epoch: cost= 
Epoch: cost= 
Epoch: cost= 
Epoch: cost= 
Epoch: cost= 
Epoch: cost= 
Epoch: cost= 
Epoch: cost= 
Epoch: cost= 
Epoch: cost= 
Epoch: cost= 0.103263445 
Epoch: cost= 0.101153791 
Optimization Finished! 


OOOOOOOOOOOOOOOOOOO0O 


可 以 看 出 随 着 训练 次 数 的 增多 ， 损 失 值 趋 于 减少 。 


测试 集 的 图 片 和 经 过 自动 编码 器 重建 特征 后 的 图 片 对 比如 图 9-6 所 
示 。 上 面 一 行 是 测试 集 的 图 片 ， 下 面 一 行 对 应 的 古 经 过 目 动 编码 占 重 
建 后 的 结果 。 
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图 9-6 
9.7 小 结 


本 章 主 要 介绍 了 TensorFlow 在 手写 数字 数据 集 MNIST 的 图 像 识别 中 
的 应 用 。 以 MNIST 数 据 集 为 例 ， 讲 解 了 最 简单 的 Softmax 回 归 、 卷 积 神 
经 网 络 (CNN) 、 循 环 神经 网 络 (RNN) 、 自 动 编码 器 模型 的 构建 和 
训练 方式 。 同 时 应 用 tf.summary.FileWriter() 可 视 化 的 API 来 配合 
TensorBoard 的 可 视 化 展现 。 


[1] http://yann.lecun.com/exdb/mnist/ ° 
[2] 格式 内 容 参考 官方 网 站 http://yann.lecun.com/exdb/mnist/ ° 


[B] 参见 百度 百科 “MSB”: http://baike.baidu.conylink? 
url=r3 DrWE4OHhsdq-u0u8D_pJ9_24Kmzl5jwrhdBB0C1azd7nxCz 
IfM9BkPVbPF_os2glaJu0pLctzwG7RpxEKUKK 。 


[4] “本 世代 码 参 考 https:Wgithub.commlintz/TensorFlow- 


Tutorials/blob/master/05_convolutional_net.py ° 


[5] “本 世代 码 参 考 https:Wgithub.comy/aymericdamien/TensorFlow- 


Examples/blob/master/examples/3_Neural Networks/recurrent_ network.py 


， 并 做 了 相应 修改 。 


[6] http:/www.cs.toronto.edu/~graves/preprint.pdf 


[7] ”本 节 参 考 UFLDL 的 文章 : 
http://ufldl.stanford.edu/wiki/index.php/Autoencoders_and_Sparsity ° 


[8] ”本 图 参考 
http://ufldl.stanford.edu/wiki/index.php/Autoencoders and_ Sparsity ° 


[9] ” 主 成 分 分 析 (principal components analysis, PCA) 是 一 种 分 析 、 
位 化 数据 集 的 拉 术 。 经 常用 于 减少 数据 集 的 维 数 ， 同 时 保持 数据 集中 
对 方差 贡献 最 大 的 特征 。 这 是 通过 保留 低 阶 主 成 分 ， 忽 略 高 阶 主 成 分 
做 到 的 。 是 最 常用 的 线性 降 维 方法 。 (出 自 维 基 百 科 “ 主 成 分 分 

析 ”。) 


[10] ”本 市 代码 主要 参考 https://github.com/aymericdamien/TensorFlow- 


Examples/blob/master/examples/3_NeuralNetworks/ autoencoder.py ° 


第 10 章 ”人 脸 识别 


人 脸 识别 是 基于 人 的 脸 部 特征 信 ， 
像 或 视频 流 ， 
包括 人 脸 检 测 


人 脸 的 图 
的 技术 处 理 ， 


=> 


更 的 支付 方式 ， 并 


在 《 麻 省 理工 科技 评论 》 
宝 的 “ 刷 脸 支付 ”(Paying with Your Face) 成 功 入 围 ， 
昌 已 经 处 于 成 熟 期 。 


并 自动 在 


~A 


10.1 


现在 很 多 App 都 应 


的 优势 。 


。 非 强制 性 : 采集 方式 不 容易 被 察觉 ， 被 识别 的 人 脸 


人 脸 识别 简介 


了 人 脸 识 别 技术 ， 让 用 


图 像 
脸 关 键 点 检测 、 人 脸 验 证 等 。 


(MIT Technology Review ) (120174 


生物 识别 技术 。 


电 进 行 身 份 识 别 的 一 和 
检测 和 跟踪 人 脸 ， 进 而 对 检测 


摄像 机 或 摄 人 a 
到 的 人 脸 进 行 一 系列 与 脸 部 相 


全 球 十 大 突破 性 


让 A 


右 


YN 


且 其 评论 称 ， 该 技术 提供 


` 
5] 
LY 


并 


J 


图 像 可 以 主动 获取 。 


。 非 接触 性 : 用 


户 不 需要 与 设 


接触 。 


。 并 发 性 : 能 够 同时 进行 多 个 人 脸 的 检测 、 跟 踪 和 识别 。 


在 深度 学 习 


出 现 以 前 ， 人 脸 识别 方法 一 般 分 为 两 个 步骤 : 


EA 


Pepe A Bee? 


储 。 传 统 的 人 脸 识 


关 


户 体验 “" 刷 脸 认 证 ”上 甩 眼 支付 ?等 。 人 脸 识 别 具 有 很 多 天 然 


域 


别 技术 主要 是 基于 可 见 光 图 像 的 人 脸 识 别 。 但 这 种 方式 有 很 多 缺陷 ， 例 如 ， 同 一 个 人 在 姿势 、 光 照 等 发 
生变 化 时 ， 会 使 识别 率 大 大 降低 。 目 前 ， 深 度 学 习 + 大 数据 (海量 的 有 标注 人 脸 数 据 ) 成 为 人 脸 识别 领 
的 主流 技术 路 线 。 

采用 神经 网 络 的 人 脸 识别 技术 ， 可 以 通过 大 量 样 本 图 像 训练 来 得 到 识别 模型 ， 不 需要 人 工 选 取 特 
征 ， 而 是 在 样本 的 训练 过 程 中 自行 学 习 。 它 的 识别 准确 率 极 高 ， 可 以 达到 99% 。 

下 面 我 们 就 介绍 基于 神经 网 络 的 人 脸 识别 技术 的 识别 流程 。 


10.2 人 脸 识别 的 技术 流程 


人 脸 识别 系统 一 般 主要 包括 4 个 组 成 部 分 ， 分 别 为 人 脸 图 像 采 集 及 检测 、 人 脸 图 像 预 处 理 、 人 脸 图 像 
特征 提取 以 及 人 脸 图 像 匹配 与 识别 。 
10.2.1 人 脸 图 像 采 集 及 检测 

人 脸 识 别 的 第 一 步 就 是 人 脸 的 图 像 采集 及 检测 。 人 脸 图 像 采集 是 指 通过 摄像 镜头 把 人 脸 图 像 采 集 下 
来 ， 如 静态 图 像 、 动 态 图 像 、 不 同 的 位 置 、 不 同 表情 等 。 当 用 户 在 采集 设备 的 拍摄 范围 内 时 ， 采 集 设 
会 自动 搜索 并 提 摄 。 


人 脸 检测 属于 目标 检测 (object detection) 的 一 部 分 ， 主 要 涉及 以 下 两 个 方面 : 


(1) 对 要 检测 的 目标 对 象 进行 概率 统计 ， 从 而 得 到 待 检测 对 象 的 一 些 特征 ， 建 立 起 目标 检测 模型 ， 


(2) 用 得 到 的 模型 来 匹配 输入 的 图 像 ， 如 果 有 匹配 则 输出 匹配 的 区 域 ， 没 有 就 什么 也 不 做 。 


人 脸 检测 是 人 脸 识别 的 预 处 理 的 一 部 分 ， 即 在 图 像 中 准确 标定 出 人 脸 的 位 置 和 大 小 。 人 脸 图 像 中 包 
含 的 模式 特征 十 分 丰富 ， 如 直方 图 特征 、 颜 色 特征 、 模 板 特征 、 结 构 特征 及 哈 尔 特 征 (Haar-like feature) 
等 。 人 脸 检 测 束 是 把 这 其 中 有 用 的 信息 挑 出 来 ， 并 利用 这 些 特征 实现 人 脸 检 测 。 


Pe) 


在 人 脸 检 测算 法 中 ， 有 模板 匹配 模型 、Adaboost 模 型 等 ， 其 中 Adaboost 模 型 在 速度 与 精度 的 综合 性 能 
上 表现 最 好 。 该 算法 的 特点 就 是 训练 慢 ， 检 测 快 ， 基 本 上 可 以 达到 视频 流 实时 检测 效果 。 
10.2.2 ”人 脸 图 像 预 处 理 

人 脸 图 像 预 处 理 是 基于 人 脸 检测 的 结果 ， 对 图 像 进行 处 理 ， 为 后 面 的 特征 提取 服务 。 系 统 获取 的 人 
仿 图 像 可 能 受到 各 种 条 件 的 限制 和 随机 干扰 ， 需 要 进行 缩放 、 旋 转 、 拉 伸 、 光 线 补 偿 、 灰 度 变换 、 直 方 
图 均衡 化 、 规 范 人 化、 几何 校正 、 过 小 以 及 锐 化 等 图 像 预 处 理 。 
10.2.3 ”人 脸 图 像 特征 提取 

人 脸 图 像 特征 提取 就 是 将 人 脸 图 像 信息 数字 化 ， 将 一 张 人 脸 图 像 转 变 为 的 一 串 数 字 (一 般 称 为 特征 
向 量 ) 。 例 如 ， 对 一 张 脸 ， 找 到 它 的 眼睛 左边 、 嘴 唇 右边 、 上 鼻子 、 下 巴 等 位 置 ， 利 用 特征 点 间 的 欧 氏 距 
离 、 曲 率 和 角度 等 提取 出 特征 分 量 ， 最 终 把 相关 的 特征 连接 成 一 个 长 的 特征 向 量 。 
10.24 人 脸 图 像 匹配 与 识别 

人 脸 图 像 匹 配 与 识别 就 是 把 提取 的 人 脸 图 像 的 特征 数据 与 数据 库 中 存储 的 人 脸 特 征 模 板 进行 搜索 匹 
配 ， 根 据 相 似 程度 对 身份 信息 进行 判断 ， 设 定 一 个 靖 值 ， 当 相似 度 超 过 这 一 靖 值 ， 则 把 匹配 得 到 的 结果 
输出 。 这 一 过 程 又 分 为 两 类 : 一 类 是 确认 ， 是 一 对 一 〈1:1) 进行 图 像 比较 ， 换 句 话说 就 是 证 明 “ 你 就 是 
你 ”， 一 般 用 在 金融 的 核实 身份 和 信息 安全 领域 ， 另 一 类 是 辨认 ， 是 一 对 多 AN) 进行 图 像 匹配 ， 也 就 
是 说 在 N 个 人 中 找到 你 ， 一 般 的 N 可 以 是 一 个 视频 流 ， 只 要 人 走 进 识别 范围 就 完成 识别 工作 ， 一 般 用 在 安 
防 领 域 。 


10.3 ”人 脸 识别 的 分 类 


在 人 脸 识 别 领域 ， 主 要 有 以 下 4 个 细 分 方向 。 


E> 


。 人 脸 检 测 ; 
。 人 脸 关 键 点 检测 
e 人 脸 验 证 ; 
。 人 脸 属 性 检测 。 


10.3.1 人 脸 检测 


人 脸 检 测 是 指 检测 并 定位 图 片 中 的 人 脸 ， 返 回 高 精度 的 人 脸 框 坐标 。 人 脸 检 测 是 对 人 脸 进 行 分 析 和 
处 理 的 第 一 步 。 早 期 的 检测 过 程 称 为 “滑动 窗口 "， 也 就 是 选择 图 像 中 的 某 个 和 矩形 区 域 作为 滑动 窗口 ， 在 这 


个 窗口 中 提取 一 些 特征 对 这 个 图 像 区 域 进行 


人 脸 检测 的 过 程 就 是 不 断 遍 历 需要 观察 的 窗口 。 例 如 ， 检 测 结果 就 如 图 10-1 所 示 。 


10.3.2 ”人 脸 关键 点 检测 


人 脸 关键 点 检测 是 指定 位 并 返回 人 脸 五 官 与 轮廓 的 关键 点 坐标 位 置 《如 图 10-2 所 示 ) 


伟 轮 万 、 了 眼睛 、 眉 毛 、 嘴 层 以 及 鼻子 轮廓 


最 多 可 达 106 点 。 无 论 是 静态 图 片 还 是 动态 视频 流 ， 均 能 完美 贴 合 人 脸 。 


人 脸 关 键 点 定位 技术 主要 有 级 联 形 回归 (cascaded shape regression, CSR) ， 


110-2 


前 人 脸 识别 一 般 是 基 


ij 述 ， 最 后 根据 这 些 特 征 描 述 来 判断 这 个 窗口 是 不 是 人 脸 。 


。 关 键 点 包括 人 


o 现在 某 些 人 脸 识别 公司 ， 如 Face++ 能 提供 高 精度 的 关键 点 ， 


于 DeepID 网 络 结构 。DeepID 网 络 结构 和 卷 积 神经 网 络 结构 类 似 ， 主 要 区 别 在 倒数 第 二 层 ，DeepID 网 络 结 


构 有 一 个 DeepID 层 ， 它 与 卷 积 层 4 和 最 大 江 化 层 3 相 连 ， 由 于 卷 积 神经 网 络 层 数 越 高 视野 域 越 大 ， 这 种 连 


接 方式 可 以 既 考 虑 局 部 的 特征 ， 又 考虑 全 


局 的 特征 ， 如 图 10-3 所 示 。 


0 Si 
最 大 池 化 层 3 Wa 


0 
! 最 大 池 化 层 1 miu 


™ 
DeepID ~ 
n 


图 10-3 [H 


10.3.3 ”人 脸 验 证 


人 脸 验证 是 指 分 析 两 张 人 脸 属于 同一 个 人 的 可 能 性 大 小 。 输 入 两 张 人 脸 ， 得 到 一 个 置信 度 分 数 和 相 
应 的 阔 值 ， 以 便 评 估 相 似 度 。 图 10-4 是 我 调用 Face++ 的 人 脸 验证 在 线 接口 得 到 的 结果 。 对 比 结果 为 : 是 同 
一 个 人 的 可 能 性 很 高 。 


10.3.4 人 脸 属性 检测 


人 脸 属性 检测 包括 人 脸 属 性 辨识 和 人 脸 情 绪 分 析 。 例 如 ， 在 https:/www.betaface.com/wpa/ 可 以 进 
人 脸 识别 在 线 测试 ， 可 以 给 出 人 的 年 龄 、 是 否 有 胡子 、 情 绪 CS + TES EAU > TBR) 、 人 性 别 、 
带 眼 镜 、 肤 色 等 。 图 10-5 中 给 出 的 是 我 的 一 张 照 片 的 测试 结果 ， 因 为 化 妆 和 娘 iv 原因 ， 结 果 并 不 是 很 准 
确 。 


Face Position Classifiers and measurements 


427.8, 511.6 age : 15 (60%), beard : no, expression : neutral (75%), gender ; female, glasses 
a -9.00 deg : yes, mustache : no, race : white 
y 345 x 345 
score: 1 
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人 脸 识别 可 以 应 用 在 很 多 方面 。 例 如 ， 美 图 秀 秀之 类 的 美 颜 应 用 ， 世 纪 佳 毕 等 相亲 应 用 中 的 查看 与 
潜在 配偶 的 “面相 ”相似 度 ， 以 及 支付 领域 的 “ 刷 脸 支付 "和 安防 领域 的 < 人 脸 鉴 权 *。 同 时 ， 国 内 的 Face++ 和 
商 汤 科技 等 公司 ， 都 提供 了 人 脸 识别 的 相应 SDK， 供 开发 者 调用 。 

下 面 和 大 家 一 起 做 两 个 练习 : 一 个 是 关于 人 脸 检测 的 ， 另 一 个 是 人 脸 的 性 别 和 年 龄 识别 。 


10.4 人 脸 检 测 2 


本 节 示 例 是 TensorFlow 的 人 脸 识 别 实现 ， 参 考 了 Florian Schroff > Dmitry Kalenichenko 和 James Philbin 
的 论文 《FaceNet: A Unified Embedding for Face Recognition and Clustering) DB] 。 本 节 的 人 脸 检 测 的 过 程 
参考 了 https://github.com/davidsandberg/facenet/wiki/Validate-on-lfw ° 


我 们 先 把 代码 下 载 下 来 : 


git clone --recursive https://github.com/davidsandberg/facenet.git 


10.4.1 LFW 数 据 集 


这 里 采用 的 数据 集 是 LFW (Labeled Faces in the Wild Home) 数据 集 4] 。 这 个 数据 集 是 由 美国 马 萨 诸 
塞 大 学 阿 姆 斯 特 分 校 计算 机 视觉 实验 室 整理 的 。 它 包含 13 233 张 图 片 ， 共 5 749 人 ， 其 中 4 096 人 只 有 一 张 
图 片 ，1 680 人 的 图 片 多 于 一 张 ， 每 张 图 片 尺寸 是 250x250 ° 

我 们 将 下 载 后 的 数据 集 解压 放 在 $YOURHOME /facenet/datasets/lfw/raw， 这 里 的 $YOURHOME 写成 你 
9 己 的 目录 。 下 载 后 的 数据 集 如 下 : 
drwxr-xr-x@ 3 jiaxuan staff 102B 10 7 2007 AJ_Cook 
drwxr-xr-x@ 3 jiaxuan staff 102B 10 7 2007 AJ_Lamas 
drwxr-xr-x@ 3 jiaxuan staff 102B 10 7 2007 Aaron_Eckhart 
drwxr-xr-x@ 3 jiaxuan staff 102B 10 7 2007 Aaron_Guiel 
drwxr-xr-x@ 3 jiaxuan staff 102B 10 7 2007 Aaron_Patterson 
drwxr-xr-x@ 6 jiaxuan staff 204B 10 7 2007 Aaron_Peirsol 
drwxr-xr-x@ 3 jiaxuan staff 102B 10 7 2007 Aaron_Pena 
drwxr-xr-x@ 4 jiaxuan staff 136B 10 7 2007 Aaron_Sorkin 
drwxr-xr-x@ 3 jiaxuan staff 102B 10 7 2007 Aaron_Tippin 

人 脸 图 片 位 于 上 述 每 个 人 物 名 字 的 文件 夹 下 ， 命 名 方式 为 “名 字 _xxxx.jpg”°。 例如 ，AJ_Cook 文 件 夹 
的 图 片 的 文件 名 为 AJ_Cook_0001.jpg ° 
10.4.2 ”数据 预 处 理 

在 图 像 识 别 中 ， 数 据 预 处 理 是 很 重要 的 一 步 。 这 里 使 用 facenet 源 代码 下 的 align 模 块 去 校准 。 校 准 代码 
JUhttps://github.com/davidsandberg/facenet/blob/master/src/align/align_dataset_mtcnn.py 。 我 们 需要 将 检测 所 
使 用 的 数据 集 校准 为 和 预 训 练 模型 所 使 用 的 数据 集 大 小 一 致 。 


T 


为 了 能 正确 运行 校准 程序 ， 需 要 设置 一 下 环境 变量 : 


export PYTHONPATH=$YOURHOME 


/facenet/src 


校准 命令 如 下 : 


for N in {1..4}; do python src/align/align_dataset_mtcnn.py $YOURHOME/facenet 


/datasets/lfw/raw $YOURHOME 


/facenet/datasets/lfw/lfw_mtcnnpy_160 --image_size 160 
--margin 32 --random_order --gpu_memory_fraction 0.25 & done 


过 搜索 3 


我 们 
如 下 : 


这 里 采用 GitHub 上 提供 的 预 训 练 模型 20170216-091149.zip ©! ， 采 用 的 训练 集 是 MS-Celeb-1M 数 据 集 
[6] 。MS-Celeb-1M 是 微软 的 一 个 非常 大 的 人 脸 识 别 数据 库 ， 它 是 从 名 人 榜 上 选择 前 


B 


= 


ERRED AKALAR E A FE BOAT © XVI ED 


100 万 的 名 人 ， 
率 已 经 达到 0.993+0.004 ° 


or 


然后 通 


将 下 载 后 的 模型 解压 到 $YOURHOME /facenet/models/facenet/20170216-091149, 4 


i 包含 的 文件 


model-20170216-091149.ckpt-250000.data-00000-of-00001 
model-20170216-091149.ckpt-250000. index 
model-20170216-091149.met 


10.4.3 ”进行 检测 


如 下 命令 运行 脚本 : 


进入 facenet 目 录 ， 


python src/validate_on_lfw.py datasets/lfw/lfw mtcnnpy_160 models 


得 到 的 结果 如 下 : 


Model directory: /media/data/DeepLearning/models/facenet/20170216-091149/ 
Metagraph file: model-20170216-091149.meta 

Checkpoint file: model-20170216-091149.ckpt-250000 

Runnning forward pass on LFW images 

Accuracy: 0.993+-0.004 

Validation rate: 0.97533+-0.01352 @ FAR=0.00100 

Area Under Curve (AUC): 0.999 

Equal Error Rate (EER): 0.008 


TF 


为 了 和 基准 进行 比较 ， 这 里 采用 facenet/data/pairs.txt 文 伯 
和 不 匹配 的 人 名 和 图 片 编号 。 匹 配 的 人 名 和 图 片 编 


号 示例 如 下 : 


， 它 是 官方 随机 4 


成 的 数据 ， 


里 面包 含 匹 配 


f 


Abel_Pacheco 1 4 


表示 Abel_Pacheco 的 第 1 张 和 第 4 张 是 一 个 人 。 


不 匹配 的 人 名 和 图 片 编 号 示例 如 下 : 


Abdel Madi Shabneh 1 Dean Barker 1 


表示 Abdel_Madi_Shabneh 的 第 1 张 和 Dean_Barker 的 第 1 张 不 是 一 个 人 。 


下 面 我 们 看 一 下 validate_on_lfw.py 是 如 何 检测 人 脸 的 。 可 以 说 分 为 4 步 ， 具 体 如 下 : 


def main(args): 
with tf.Graph().as_default(): 
with tf.Session() as sess: 


# 工 ， 读 入 之 前 的 pairs ,txt 文件 

# WZAJaMI[['Abel_Pacheco', '1', '4'] 

# ['Akhmed_Zakayev', '1', '3'] ['Slobodan_Milosevic', '2', 'Sok_An', '1']] 
pairs = lfw.read_pairs(os.path.expanduser(args.lfw_pairs) ) 


# 获取 文件 路 径 和 是 否 匹配 的 关系 对 
paths, actual_issame = lfw.get_paths(os.path.expanduser(args.1fw_dir), 
pairs, args.lfw_file_ext) 


# 2， 加 载 模型 

print('Model directory: %s' % args.model_dir) 

meta_file, ckpt_file = facenet.get_model_filenames(os.path.expanduser 
(args.model_dir) ) 


print('Metagraph file: %s' % meta_file) 
print('Checkpoint file: %s' % ckpt_file) 
facenet.load_model(args.model_dir, meta_file, ckpt_file) 


# 获取 输入 、 输 出 的 张 量 

images_placeholder = tf.get_default_graph().get_tensor_by_name("input:0") 

embeddings = tf.get_default_graph().get_tensor_by_name("embeddings:0") 

phase_train_placeholder = tf.get_default_graph().get_tensor_by_name 
("phase_train:0") 


image_size = images_placeholder.get_shape()[1] 
embedding_size = embeddings. get_shape()[1] 


# 3， 使 用 前 向 传播 来 验证 
print('Runnning forward pass on LFW images') 
batch_size = args.1lfw_batch_size 
nrof_images = len(paths) 
nrof_batches = int(math.ceil(1.0*nrof_images / batch_size)) # 总 共 的 批 次 数 
emb_array = np.zeros((nrof_images, embedding_size) ) 
for i in range(nrof_batches): 
start_index = i*batch_size 
end_index = min((it1)*batch_size, nrof_images) 
paths_batch = paths[start_index:end_index] 
images = facenet.load_data(paths_batch, False, False, image_size) 
feed_dict = { images_placeholder:images, phase_train_placeholder:False } 
emb_array[start_index:end_index,:] = sess.run(embeddings, 
feed_ dict=feed_dict) 


# 4. 这 里 计算 准确 率 和 验证 率 ， 使 用 了 十 折 交 叉 验 证 的 方法 
tpr, fpr, accuracy, val, val_std, far = lfw.evaluate(emb_array, 
actual_issame, nrof_folds=args.1fw_nrof_folds) 


# 得 到 auc 值 

auc = metrics.auc(fpr, tpr) 

print('Area Under Curve (AUC): %1.3f' % auc) 

# 得 到 等 错误 率 (eer) 

eer = brentq(lambda x: 1. - x - interpolate.interpid(fpr, 
print('Equal Error Rate (EER): %1.3f' % eer) 


tpr)(x), ©., 


print('Accuracy: %1.3f+-%1.3f' % (Nnp.mean(accuracy), np.std(accuracy) ) ) 
print('Validation rate: %2.5f+-%2.5f @ FAR=%2.5f' % (val, val_std, far)) 


1.) 


这 里 采用 十 折 交 义 验 证 71 (10-fold cross validation) 的 方法 来 测试 算法 的 
的 精度 测试 方法 ， 有 具体 策略 是 : 将 数据 集 分 成 10 份 ， 轮 流 将 其 中 9 份 


ANS 


正 ， 再 求 其 均值 ， 作 为 对 算法 准确 性 的 估计 。 


10.5 ”性 别 和 年 龄 识别 四 


te 


Hy 


集 含有 噪声 、 姿 势 、 光 照 等 变化 ， 尽 可 能 真实 地 反映 现实 世界 。 


下 载 后 的 Adience 数 据 集 如 下 : 


吉 果 的 均值 作为 对 算法 精度 的 估计 ， 一 般 还 需要 进行 多 次 10 折 交叉 验证 


示例 中 数据 集 采 用 Adience 数 据 集 [9] 。Adience 数 据 集 包含 26 580 张 图 
FE 龄 范围 有 8 个 区 段 (0~2 > 4~6 ` 8~13 > 15~20 ` 25~32 ` 38~43 ` 48~53 ` 60~) ， 并 


准确 性 。 十 折 交 叉 验证 是 常 
故 训练 集 ， 
求 均 值 


1 份 做 测试 集 ， 
例如 ，10 次 10 


10 次 的 
折 交 叉 验 


片 ， 总 共 含 有 2 284 类 ， 涉 及 的 


日 这 个 数据 


AdienceBenchmarkOfUnfilteredFacesForGenderAndAgeClassification 

| 一 aligned # 经 过 剪裁 和 对 齐 的 数据 
faces # 原始 数据 
fold_ 0 data.txt 
fold_1_data.txt 
fold_2_data.txt 
fold_3_data.txt 
fold_4_data.txt 
fold_frontal_O_data.txt 
fold_frontal_1_data.txt 
fold_frontal_2_data.txt 
fold_frontal_3_data.txt 
fold_frontal_4_data.txt 


里 面 是 仅 使 用 近似 正面 姿态 的 面部 的 标 ; 


10] FID; original_image 是 图 片 的 文件 名 ; face_id 是 一 个 人 的 标识 符 ， 标 i 
给 出 一 个 围绕 一 个 人 脸 的 边框 。tilt_ang 是 切 斜 角度 ，fiducial_yaw_angle 是 基准 从 


fold_0_data.txt 至 fold_4_data.txt 里 面 是 全 部 数据 的 标记 ，fold_frontal_0_data.txt 至 
己 ， 它 们 都 包含 表 10-1 所 示 的 数据 。 


fold_frontal_4_data.txt 
中 user_id 是 用 户 的 Flickr 

为 同一 个 人 ; x、y、dx、dy 
it FA, fiduci 


ial _score 是 


表 10-1 
user_id original_image face id| age |gender| x y | dx | dy | tilt_ang | fiducial_yaw_angle | fiducial_score 
113445054@N07 | 11763777465_11d01c34ce_o.jpg | 1322 | (25,32) |m 1102 | 296 | 357 | 357 | -15 0 59 


10.5.1 数据 预 处 理 

使 用 脚本 CU 把 数据 处 理 成 TFRecords 的 格式 ， 处 理 后 的 文件 列表 如 下 : 
-rw-r--r-- 1 root staff 55M 3 17 03:47 train-00000-of-00010 
-rw-r--r-- 1 root staff 55M 3 17 03:48 train-00001-of-00010 
-rw-r--r-- 1 root staff 55M 3 17 03:48 train-00002-of-00010 
-rw-r--r-- 1 root staff 55M 3 17 03:48 train-00003-of-00010 
-rw-r--r-- 1 root staff 55M 3 17 03:49 train-00004-of-00010 
-rw-r--r-- 1 root staff 55M 3 17 03:47 train-00005-of-00010 
-rw-r--r-- 1 root staff 55M 3 17 03:48 train-00006-of-00010 
-rw-r--r-- 1 root staff 55M 3 17 03:48 train-00007-of-00010 
-rw-r--r-- 1 root staff 55M 3 17 03:48 train-00008-of-00010 
-rw-r--r-- 1 root staff 55M 3 17 03:49 train-00009-of-00010 
-rw-r--r-- 1 root staff 30M 3 17 03:47 validation-00000-of-00002 
-rw-r--r-- 1 root staff 30M 3 17 03:47 validation-00001-of-00002 


下 面 看 一 下 它 是 如 何 处 理 的 。 这 里 


件 夹 。 在 这 个 文件 夹 中 ， 


ZAM Ue 


化 


: 集 和 测试 


th 


进行 了 划分 和 标注 


F 


$E) T https://github.com/GilLevi/AgeGenderDeep Learning/Folds X 
， 以 “性 别 ” 为 例 ， 划 分 后 的 文件 如 下 : 


10069023@N00/landmark_aligned_face.1924.10335948845_0d22490234_0.jpg 0 
114841417@N06/landmark_aligned_face.489.12077468164_8545fe9215_0.jpg 1 
7464014@N04/landmark_aligned_face.961.10109081873_8060c8b0a5_o.jpg 1 


也 就 是 以 “空格 ”划分 了“ 


我 们 借助 这 个 文件 下 提供 的 gender_train.txt 和 gender_val.txt 


图 


成 TFRecords 文 件 ， 其 


7x 


图 片 处 天 


片 名 称 路 径 ? 列 表 和 "性 


别 ” é 


的 


为 大 小 为 256x256 的 JPEG 编 码 的 RGB 


https://github.com/dpressel/rude-carnie/blob/master/preproc.py ° 


四 


下 面 


就 来 介绍 一 下 关键 代码 。 首 


tA 


每 一 个 样 例 建立 一 个 proto: 


图 片 列表 把 原 有 的 Adience 数 据 集 处 理 


u 


图 像 。 处 理 代码 参见 


参数 如 下 : 


})) 


return example 


一 个 样 例 建立 一 个 proto 


filename: 文件 名 (如 上 面 所 述 的 文件 名 称 


image_buffer: string, 


JPEG 编 码 的 RGB 


图 


像 


径 列表 ) 


'image/height': _int64_feature(height), 
'image/width': _int64_feature(width) 


label: 标记 的 真实 值 

height: 目标 高 度 256 

width: 目标 宽度 256 

example = tf.train.Example(features=tf.train.Features(feature={ 
"image/class/label': _int64_feature(label), 
"image/filename': _bytes_feature(os.path.basename(filename) ), 
"image/encoded': _bytes_feature(image_buffer), 


def _convert_to_example(filename, image_buffer, label, height, width): 


随后 ， 将 tf.python_io.TFRecordWriter 写 入 TFRecords 文 件 ， 输 H 


文件 为 output_file。 如 下 : 


writer = tf.python_io.TFRecordwriter(output_file) 

example = _convert_to_example(filename, image_buffer, label, height, width) 
writer .write(example.SerializeToString()) 

writer.close() 


4.10.3 节 曾 详细 讲解 过 如 何 从 文件 中 读 取 数据 ， 并 生成 TFRecords 文 件 ， 本 节 是 一 个 实际 应 用 。 读 者 
可 以 复习 一 下 4.10.3 节 的 内 容 。 


A 


这 样 ， 我 们 就 把 原始 数据 处 理 成 了 大 小 为 256x256 的 JPEG 编 码 的 RGB 图 像 ， 生 成 TFRecords 文 件 ， 并 
将 TFRecords 文 件 分 为 训练 集 和 测试 集 。 


10.5.2 ”构建 模型 


这 里 的 年 龄 和 性 别 的 训练 模型 是 参考 Gil Levi 和 Tal Hassner 的 论文 《Age and Gender Classification 
Using Convolutional Neural Networks) H?! 构建 的 。 年 龄 和 性 别 的 构建 模型 的 代码 在 
https://github.com/dpressel/rude-carnie/blob/master/model.py 中 。 


or 


tensorflow.contrib.slim, 


为 了 方便 生成 卷 积 网 络 ， 这 里 直接 使 用 TensorFlow 的 高 级 API 
tensorflow.contrib.slim 是 对 常见 网 络 和 一 些 功能 的 封装 ， 调 用 起 来 很 方便 ， 避 免 了 自己 写 大 量 代 码 ， 让 代 
码 结 构 简 洁 。 方 法 如 下 : 


NVS 


def levi_hassner(nlabels, images, pkeep, is_training): 


weight_decay = 0.0005 
weights_regularizer = tf.contrib.layers.12_regularizer(weight_decay) 
with tf.variable_scope("LeviHassner", "LeviHassner", [images]) as scope: 


with tf.contrib.slim.arg_scope( 
[convolution2d, fully_connected], 
weights_regularizer=weights_regularizer, 
biases_initializer=tf.constant_initializer(1.), 
weights_initializer=tf.random_normal_initializer(stddev=0.005), 
trainable=True): 
with tf.contrib.slim.arg_scope( 
[convolution2d], 
weights_initializer=tf.random_normal_initializer (stddev=0.01)): 


convi = convolution2d(images, 96, [7,7], [4, 4], padding='VALID', 
biases_initializer=tf.constant_initializer(0.), scope='conv1i') 
pooli = max_pool2d(convi, 3, 2, padding='VALID', scope='pooli1') 


norm1 tf.nn.local_response_normalization(pooli, 5, alpha=0.0001, 
beta=0.75, name='norm1') 

conv2 = convolution2d(normi, 256, [5, 5], [1, 1], padding='SAME', 
scope='conv2' ) 

pool2 = max_pool2d(conv2, 3, 2, padding='VALID', scope='pool2') 

norm2 = tf.nn.local_response_normalization(pool2, 5, alpha=0.0001, 


beta=0.75, name='norm2') 
conv3 = convolution2d(norm2, 384, [3, 3], [1, 1], biases_initializer= 
tf.constant_initializer(0.), padding='SAME', scope='conv3' ) 
pool3 = max_pool2d(conv3, 3, 2, padding='VALID', scope='pool3') 
flat = tf.reshape(pool3, [-1, 384*6*6], name='reshape' ) 


full1 = fully_connected(flat, 512, scope='fulli') 
drop1 = tf.nn.dropout(fulli, pkeep, name='dropi') 
full2 = fully_connected(dropi1, 512, scope='full2') 
drop2 = tf.nn.dropout(full2, pkeep, name='drop2') 


with tf.variable_scope('output') as scope: 


weights = tf.Variable(tf.random_normal([512, nlabels], mean=0.0, stddev= 
0.01), name='weights' ) 


biases = tf.Variable(tf.constant(0.0, shape=[nlabels], dtype=tf.float32), 


ou 
retu 


name='biases' ) 
tput = tf.add(tf.matmul(drop2, weights), biases, name=scope.name) 
rn output 


10.5.3 


训练 模型 


定义 好 网 络 模 型 后 ， 接 下 来 就 进行 训练 。 训 练 模型 代码 在 https://github.com/dpressel/rude-carnie/ 
blob/master/train.py 中 。 


下 面 束 以 “性 别 * 的 训练 为 例 ， 修 改 文件 中 的 相应 参数 ， 如 train_dir。 训 练 过 程 的 关键 代码 如 下 : 
def main(argv=None): 


wit 


h tf.Graph().as_default(): 


model fn = select_model(FLAGS.model_type) 
# 打开 元 数据 文件 md .json， 这 个 文件 是 在 预 处 理 数 据 时 生成 的 。 找 出 nlabels 和 epoch 的 大 小 
input_file = os.path.join(FLAGS.train_dir, 'md.json') 
print (input_file) 
with open(input_file, 'r') as f: 
md = json.load(f) 


images, labels, _ = distorted_inputs(FLAGS.train_dir, FLAGS.batch_size, 
FLAGS.image_size, FLAGS.num_ 
preprocess_threads) 
logits = model_fn(md['nlabels'], images, 1-FLAGS.pdrop, True) 
total_loss = loss(logits, labels) 


train_op = optimizer(FLAGS.optim, FLAGS.eta, total_loss) 
saver = tf.train.Saver(tf.global_variables()) 
summary_op = tf.Summary.merge_all() 


sess = tf.Session(config=tf.ConfigProto( 
log_device_placement=FLAGS.1log_device_placement ) ) 


tf.global_variables_initializer().run(session=sess) 


# 本 例 可 以 输入 预 训 练 模型 Inception V3， 此 处 可 以 用 来 微调 Inception v3 
if FLAGS.pre_model: 
inception_variables = tf.get_collection( 
tf.GraphKeys.VARIABLES, scope="Inception V3") 
restorer = tf.train.Saver(inception_variables) 
restorer.restore(sess, FLAGS.pre_model) 


if FLAGS.pre_checkpoint_path: 
if tf.gfile.Exists(FLAGS.pre_checkpoint_path) is True: 
print('Trying to restore checkpoint from %s' % FLAGS.pre_checkpoint_ path) 
restorer = tf.train.Saver() 
tf.train.latest_checkpoint (FLAGS. pre_checkpoint_path) 
print('%s: Pre-trained model restored from %s' % 
(datetime.now(), FLAGS.pre_checkpoint_path) ) 


# 将 ckpt 文 件 存储 在 run- {pid} 目 录 中 
run_dir = '%s/run-%d' % (FLAGS.train_dir, os.getpid()) 


checkpoint_path = '%s/%s' % (run_dir, FLAGS.checkpoint) 
if tf.gfile.Exists(run_dir) is False: 
print('Creating %s' % run_dir) 
tf.gfile.MakeDirs(run_dir) 


tf.train.write_graph(sess.graph_def, run_dir, 'model.pb', as_text=True) 
tf.train.start_queue_runners(sess=sess) 
summary_writer = tf.summary.FileWriter(run_dir, sess.graph) 


steps_per_train_epoch = int(md['train_counts'] / FLAGS.batch_size) 
num_steps = FLAGS.max_steps if FLAGS.epochs < 1 else FLAGS.epochs * 


steps_per_train_epoch 
print('Requested number of steps [%d]' % num_steps) 


for step in xrange(num_steps): 
start_time = time.time() 
_, loss_value = sess.run([train_op, total_loss]) 
duration = time.time() - start_time 


assert not np.isnan(loss_value), 'Model diverged with loss = NaN' 


if step % 10 == 
num_examples_per_step = FLAGS.batch_size 
examples_per_sec = num_examples_per_step / duration 
sec_per_batch = float(duration) 


format_str = ('%s: step %d, loss = %.3f (%.1f examples/sec; %.3f ' 
"sec/batch)') 
print(format_str % (datetime.now(), step, loss_value, 
examples_per_sec, sec_per_batch) ) 


# 每 10 步 记录 一 次 摘要 文件 ， 保 存 一 个 检查 点 文件 
if step % 10 == 0: 

summary_str = sess.run(summary_op) 
summary_writer.add_summary(summary_str, step) 


if step % 10 == © or (step + 1) == num_steps: 
saver.save(sess, checkpoint_path, global_step=step) 


进行 了 100 次 送 代 后 生成 的 检查 点 文件 位 于 run-{pid} (进程 号 ) 的 目录 中 ， 如 下 : 


> run-28892 $ tree -L 1 


checkpoint 

checkpoint -100.data-00000-of -00001 
checkpoint -100. index 

checkpoint -100.meta 

checkpoint -60.data-00000-of -00001 
checkpoint -60. index 

checkpoint -60.meta 

checkpoint -70.data-00000-of -00001 
checkpoint -70. index 
checkpoint-70.meta 

checkpoint -80.data-00000-of-00001 
checkpoint -80. index 

checkpoint -80.meta 

checkpoint -90.data-00000-of-00001 
checkpoint -90. index 

checkpoint -90.meta 
events.out.tfevents.1489700787 .baidudeMacBook-Pro. local 
model.pb 


10.5.4 “验证 模型 


接着 我 用 自己 的 一 张 图 片 (如 图 10-6 所 示 ) 来 看 看 我 们 训练 的 模型 是 否 准确 


https://github.com/dpressel/rude-carnie/blob/master/guess.py ° 


。 源 代码 位 于 


关键 代码 如 下 : 


def classify(sess, label_list, softmax_output, coder, images, image_file): 


print('Running file %s' % image_file) # 输入 的 图 片 文件 
image_batch = make_batch(image_file, coder, not FLAGS.single_look) 
batch_results = sess.run(softmax_output, feed_dict={images:image_batch.eval()}) 
output = batch_results[0] 
batch_sz = batch_results.shape[0] 
for i in range(1, batch_sz): 

output = output + batch_results[i] 


output /= batch_sz 

best = np.argmax(output) # 最 可 能 的 性 别 分 类 
best_choice = (label_list[best], output[best]) 
print('Guess @ 1 %s, prob = %.2f' % best_choice) 


nlabels = len(label_list) 
return best_choice 


结果 非常 好 ， 它 输出 了 性 别 是 “F”: 


Guess @ 1 F, prob = 0.59 


微软 也 推出 了 脸 部 图 片 识别 性 别 和 年 齿 


10-7 所 示 的 结果 。 


出 年 龄 和 性 别 ， 这 个 网 站 还 可 以 根据 问题 搜索 图 片 ， 结 果 相 当 准 确 。 例 如 ， 我 搜索 了 “士大夫 ”， 会 和 


Zí 


于 


的 网 站 (http://how-old.net/ ) ， 非 常 好 玩 。 除 了 通过 图 片 识别 


到 图 


&& How-Old.net 


How old do | look? 
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10.6 ”小结 


本 章 主 要 讲解 了 TensorFlow 在 工业 界 (人 脸 识 别 方向 ) 的 应 用 。 本 章 首 先 介 绍 了 人 脸 识 别 的 原理 及 技 
术 流 程 ， 人 脸 识 别 的 分 类 ， 接 着 结合 最 常见 的 案例 ， 讲 解 了 用 TensorFlow 实 现 人 脸 检测 和 从 人 脸 识别 性 别 
和 年 龄 。 


本 章 介绍 了 人 工 智能 在 视觉 领域 的 主要 应 用 ， 人 工 智 能 主要 的 关注 点 在 于 能 使 计算 机 模拟 人 的 感 
官 ， 正 如 人 的“ 眼 耳鼻 口舌 "， 人 工 智 能 在 自然 语言 处 理 领 域 也 有 很 大 的 突破 。 我 们 在 下 一 章 会 介绍 。 


[1] 本 图 出 自 《Deep Learning Face Representation from Predicting 10,000 Classes》: http://mmlab.ie.cuhk. 
edu.hk/pdf/ YiSun_CVPR14.pdf ° 


[2] ATSB https://github.com/davidsandberg/facenet ° 


[3]  https://arxiv.org/abs/1503.03832 


[4] LEFW 数 据 集 的 下 载 地 址 为 http://vis-www.cs.umass.edUylfw/。 
[5]  https://drive.google.com/file/d/OBSMzpY9kBtDVTGZjcWkzT3pldDA/view 


[6] https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million- 


celebrities-real-world/ 


[7] 参考 百度 百科 “十 折 交 叉 验证 ”。 


[8] ”本 节 代 码 参 考 https://github.com/dpressel/rude-carnie ° 
[9] http://www.openu.ac.i/home/hassner/Adience/data.html#agegender 


[10] https://www.flickr.com/ 


[11]  https://github.com/dpressel/rude-carnie/blob/master/preproc.py 


[12] http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.722.9654&rep=repl&type=pdf 


第 11 章 ” 目 然 语言 处 理 


自然 语言 处 理 N 是 计算 机 科学 领域 与 人 工 智能 领域 中 的 另 一 个 重 
要 方向 ， 其 中 很 重要 的 一 点 就 是 语音 识别 (speech recognition) 。 语 音 
识别 要 解决 的 问题 是 让 计算 机 能 够 “ 听 懂 "人 类 的 语音 ， 将 语音 中 包含 
的 文字 信息 “提取 ”出 来 。 


与 语言 相关 的 技术 可 以 应 用 在 很 多 地 方 。 例 如 ， 日 本 的 富国 生命 
保险 公司 花费 170 万 美元 安装 人 工 闹 能 系统 ， 把 客户 的 语言 转换 为 文 
本 ， 并 分 析 这 些 词 是 正面 的 还 是 负面 的 。 这 些 目 动 化 工作 将 帮助 人 类 
更 快 地 处 理 保险 业务 。 除 此 之 外 ， 现 在 的 人 工 智能 公司 也 在 把 智能 客 
服 作为 重点 的 研究 方 同 。 


与 图 像 识 别 不 同 ， 在 目 然 语言 处 理 中 输入 的 往往 是 一 段 语 首 或 者 
一 段 文 字 ， 和 输入 数据 的 长 短 是 不 确定 的 ， 并 且 它 与 上 下 文 有 很 密切 的 
关系 ， 所 以 常用 的 是 循环 神经 网 络 (recurrent neural network, RNN) 
模型 。 


11.1 模型 的 选择 


下 面 我 们 束 来 介绍 使 用 不 同 输入 和 不 同 数据 时 ， 分 别 适用 哪 种 模 
型 以 及 如 何 应 用 。 


在 图 11-1 中 ， 每 一 个 矩形 是 一 个 向 量 ， 篆 头 则 表示 画 数 (如 矩阵 相 
R) 。 最 下 面 一 行为 输入 向 量 ， 最 上 面 一 行为 输出 向 量 ， 中 间 一 行 是 


RNN 的 状态 。 


图 11-1 中 从 左 到 右 分 别 表示 以 下 几 种 情况 。 


(1) 一 对 一 : 没有 使 用 RNN， 如 Vanilla 模 型 ， 从 固定 大 小 的 输入 
得 到 固定 大 小 输出 (应 用 在 图 像 分 类 ) 。 


(2) 一 对 多 : 以 序列 输出 (应 用 在 图 片 描述 ， 输 入 一 张 图 片 输出 
一 段 文 字 序列 ， 这 种 往往 需要 CNN 和 RNN 相 结合 ， 也 就 是 图 像 和 语言 
相 结合 ， 详 见 第 12 章 ) 。 
t 
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Ca) 一 对 一 (b) 一 对 多 Co) 多 对 一 (d) 多 对 多 


图 11-1 

(3) 多 对 一 : 以 序列 输入 〈 应 用 在 情感 分 析 ， 输 入 一 段 文字 ， 然 
后 将 它 分 类 成 积极 或 者 消极 情感 ， 如 淘宝 下 某 件 商 品 的 评论 分 类 ) ， 
如 使 用 LSTM 。 


(4) 多 对 多 : 异步 的 序列 输入 和 序列 输出 “应 用 在 机 器 翻译 ， 如 
一 个 RNN 读 取 一 条 英文 语句 ， 然 后 将 它 以 法 语 形 式 输出 ) 。 


(5) 多 对 多 : 同步 的 序列 输入 和 序列 输出 (应 用 在 视频 分 类 ， 对 
视频 中 每 一 帧 打 标记 ) 。 


我 们 注意 到 ， 在 上 述 讲解 中 ， 因 为 中 间 RNN 的 状态 的 部 分 是 固定 
的 ， 可 以 多 次 使 用 ， 所 以 不 需要 对 序列 长 度 进 行 预先 特定 约束 。 更 详 
细 的 讨论 参见 Andrej Karpathy 的 文章 《The Unreasonable Effectiveness of 


Recurrent Neural Networks) !?1 o 
自然 语言 处 理 通 常 包 括 语音 合成 〈 将 文字 生成 语音 ) 、 语 首 识 


别 、 声 纹 识别 〈 声 纹 鉴 权 ) ， 以 及 它们 的 一 些 扩展 应 用 ， 以 及 文本 处 
理 ， 如 分 词 、 情 感 分 机 、 文 本 欣 掘 等 。 


11.2 ”英文 数字 语音 识别 BI 


本 市 我 们 束 用 语音 识别 的 例子 来 说 明 TensorFlow 在 上 自然 语言 处 理 上 
的 应 用 。 这 里 我 们 将 使 用 TensorFlow 机 需 学 习 库 ， 用 20 行 Python 代码 创 
建 一 个 超人 简单 的 语音 识别 器 。 


在 这 个 例子 中 ， 我 们 构建 一 个 LSTM 循 环 神经 网 络 ， 用 TFLearn 第 
三 方 库 来 训练 一 个 英文 数字 口语 数据 集 。 


我 们 采用 spoken numbers pcm 数 据 集 4! ， 这 个 数据 集中 包含 许多 人 
阅读 的 0 一 9 这 几 个 数字 的 英文 的 音频 。 | 一 段 音频 
(wav 文 件 ) 中 只 有 一 个 数字 对 应 的 英文 的 声音 。 标 识 方 法 是 {数字 }_ 
大 名 ax yip: 


9 Vicki_400.wav 
9 Victoria_100.wav 


下 面 我 们 束 来 训练 一 个 积 单 的 英文 口语 数字 识别 模型 ， 在 普通 Mac 
上 训练 ， 使 其 能 够 在 一 分 钟 内 达到 98% 的 准确 率 。 


11.2.1 定义 输入 数据 并 预 处 理 数据 


首先 ， 需 要 将 语音 处 理 成 能 够 读 取 的 矩阵 形式 。 这 里 面 用 到 了 梅 
尔 频 率 倒 谱系 数 (Mel frequency cepstral coefficents, MFCC) 特征 向 
量 ，MFCC 是 一 种 在 目 动 语音 和 说 话 人 识别 中 广泛 使 用 的 特征 。 


import tflearn 
import speech_data 
import tensorflow as tf 


learning_rate = 0.0001 
training_iters = 300000 # 迭代 次 数 
batch_size = 64 


width = 20 # MFCC 特 征 
height = 80 # 最 大 发 音 长 度 
classes = 10 # 数字 类 别 


batch = word_batch = speech_data.mfcc_batch_generator(batch_size) # 
生成 每 一 批 MFCC 语 音 
X, Y = next(batch) 
trainx, trainY = X, Y 
testx, testY = X, Y 


对 语言 做 分 帧 、 取 对 数 、 逆 矩阵 等 操作 后 ， 生 成 的 MFCC 就 代表 这 


个 语音 的 特征 。 
11.2.2 ”定义 网 络 模型 


读者 会 发 现 ， 用 tflearn 真 是 很 简洁 ， 只 用 4 行 代码 就 定义 好 了 一 个 
LSTM 模 型 : 


net 
net 
net 


tflearn.input_data([None, width, height]) 

tflearn.1lstm(net, 128, dropout=0.8) 
tflearn.fully_connected(net, classes, activation='softmax' ) 
net tflearn.regression(net, optimizer='adam', 
learning_rate=learning_rate, 


loss='categorical_crossentropy' ) 


11.2.3 ”训练 模型 
接 下 来 训练 模型 ， 并 把 模型 存储 下 来 : 


model = tflearn.DNN(net, tensorboard_verbose=0 ) 
while 1: #training_iters 
model. fit(trainxX, trainY, n_epoch=10, validation_set=(testx, 
testy), 
show_ metric=True, batch_size=batch_size) 
_y=model. predict (X) 
model.save("tflearn.1lstm.model") 


11.2.4 ”预测 模型 


任意 输入 一 个 语音 文件 ， 进 行 预测 : 


demo_file = "5 Vicki_260.wav" 
demo=speech_data.load_wav_file(speech_data.path + demo_file) 
result=model.predict( [demo] ) 

result=numpy.argmax(result) 

print("predicted digit for %s : result = %d "%(demo_file, result) ) 


结果 输出 如 下 : 


predicted digit for 5_Vicki_260.wav : result 


结 末 很 准确 ， 确 实 这 个 音频 的 数字 吏 是 “5”。 


语 
Bi» 


FT., 


11.3 ”智能 聊天 机 器 人 


现在 很 多 公司 都 把 未 来 方向 压 在 了 “上 自然 语言 的 人 机 交互 * 上 ， 而 
这 其 实 束 是 “智能 聊天 机 器 人 ”。 例如， 苹果 的 Siri、 微 软 的 Cortana 与 小 
冰 、Google Now、 百 度 的 度 秘 、 亚 蕊 进 的 蓝牙 音箱 Amazon Echo 内 置 的 
语音 助手 Alexa、Facebook 推 出 的 语音 助手 M 等 。 智 能 聊天 机 器 人 的 商 
业 价值 有 两 个 方面 。 


音 识别 可 以 用 在 智能 输入 法 、 会 议 的 快速 未 入 、 语 音 控 制 系 
能 家 居 等 领域 。 除 了 语音 识别 之 外 ， 如 有 果 对 方 能 给 出 应 答 就 更 
wie FRA EMM A” ° 


。 通过 和 用 户 的 “语音 机 器 人 ”的 对 话 ， 将 用 户 引导 到 对 应 的 服务 上 


为 


RI 


E 椅 子 进 行 对 话 时 ， 用 户 说 : “a, Ma, REAN 
这 个 椅子 的 语音 系统 束 可 能 搭载 了 上 述 大 公司 开发 的 智能 聊 


天 机 器 人 系统 。 


J 今后 智能 硬件 和 智能 家 居 的 拘 入 式 应 用 。 例 如 ， 当 用 尸 和 一 
f 


KoF 


智能 聊天 机 器 人 的 发 展 经 历 了 3 代 不 同 的 技术 。 


第 一 代 是 基于 特征 工程 。 有 大 量 的 逻辑 判断 ， 如 计 then; else then ° 
第 二 代 是 基于 检索 库 。 给 定 一 个 问题 或 者 聊天 ， 从 检索 库 中 找到 
与 已 有 答案 最 匹配 的 答案 。 


。 第 三 代 是 基于 深度 学 习 。 采 用 seq2seq+Attention 模 型 ， 经 过 大 量 的 
训练 ， 根 据 输入 生成 相应 的 输出 。 


下 面 我 们 就 来 看 看 基于 深度 学 习 的 聊天 机 器 人 的 seq2seq+Attention 
模型 原理 和 构建 方法 。 


11.3.1 原理 


seq2seq 模 型 是 一 个 翻译 模型 ， 主 要 是 把 一 个 序列 翻译 成 另 一 个 序 
列 。 它 的 基本 思想 是 用 两 个 RNNLM， 一 个 作为 编码 器 ， 男 一 个 作为 解 
码 器 ， 组 成 RNN 编 码 器 -解码 器 。 


在 文本 人 处理 领域 ,我 们 常用 编码 器 -解码 器 、(encoder-decoder) 框 


架 ， 如 图 11-2 所 示 。 
编码 器 语义 编码 C 解码 器 


图 11-2 


这 是 一 种 适合 处 理由 一 个 上 下 文 (context) 生成 一 个 目标 
(target) 的 通用 处 理 模型 。 因 此 ， 对 于 一 个 句子 对 <X,Y>， 当 输入 给 
定 的 句子 X ， 通 过 编码 紫 - 解 码 右 框架 来 生成 目标 句子 Y。X 和 Y 可 以 是 
不 同 语言 ， 这 就 是 机 器 翻译 ; X MY 可 以 是 对 话 的 问 句 和 答 句 ， 这 就 是 


MIRELA; XAY 可 以 是 图 片 和 这 个 图 片 的 对 应 描述 (这 就 是 第 12 革 
要 讲 的 看 图 说 话 ) 。 


和 由 xi1、x。， 等 单词 序列 组 成 , 了 Y 也 由 y1 > y > 等 单词 序列 组 成 。 
编码 需 对 输入 的 X 进行 编码 ， 生 成 中 间 语 义 编码 C ， 然 后 解码 郁 对 中 辣 
语义 编码 C 进行 解码 ， 在 每 个 时刻， 结合 已 经 生成 的 y 1 ,yy 
的 历史 信息 生成 责 。 但 是 ， 这 个 框架 有 一 个 缺点 ， 吏 旦 生成 的 句子 中 
每 一 个 词 采 用 的 中 间 语 义 编 码 是 相同 的 ， 都 症 C。 因 此 ， 在 句子 比较 
短 的 时 候 ， 还 能 比较 贴切 ， 句 子 长 时 ， 束 明显 不 合 语义 了 。 


在 实际 实现 聊天 系统 的 时 候 ， 一 般 编 码 右 和 解码 器 都 采用 RNN 模 
型 以 及 RNN 模 型 的 改进 模型 LSTM。 当 句子 长 度 超过 30 以 后 ，LSTM 模 
型 的 效果 会 急剧 下 降 ， 一 般 此 时 会 引入 Attention 模 型 ， 对 长 句子 来 说 能 
够 明显 提升 系统 效果 。 


Attention 机 制 是 认 知 心理 学 层面 的 一 个 概念 ， 它 是 指 当 人 在 做 一 件 
事情 的 时 候 ， 会 专注 地 做 这 件 事 而 忽略 周围 的 其 他 事 。 例 如 ， 人 在 专 
注 地 看 这 本 书 ， 会 忽略 旁边 人 说 话 的 声音 。 这 种 机 制 应 用 在 聊天 机 器 
人 、 机 右 翻 译 等 领域 ， 束 把 源 句 子 中 对 生成 句子 重要 的 关键 词 的 权重 
提高 ， 产 生出 更 准确 的 应 答 。 


增加 了 Attention 模 型 的 编码 辟 - 解 权 右 框架 如 图 11-3 所 示 。 


现在 的 中 间 语义 编码 变 成 了 不 断 变 化 的 C; ， 能 够 生产 更 准确 的 目 
IY, 。 


图 11-3 


11.3.2 ”最 佳 实践 
下 面 就 来 做 一 个 智能 聊天 机 器 人 。 P 


这 里 我 们 使 用 康 奈 尔 大 学 的 Corpus 数 据 集 [9 (Cornell Movie 
Dialogs Corpus) ， 里 面 含有 600 多 部 电影 的 对 白 。 对 和 白 示 例如 下 : 


L1045 +++$+++ UO +++$+++ MO +++$+++ BIANCA +++$+++ They do not! 


L1044 +++$+++ U2 +++$+++ MO +++$+++ CAMERON +++$+++ They do to! 


我 们 首先 关注 如 何 处 理 聊 天 数据 ， 一 般 步骤 如 下 。 


(1) 先 把 数据 集 整 理 成 < 问 ? 和 “ 答 ” 的 文件 ， 生 成 .enc 〈 问 句 ) 
和 .dec E) 文件 ， 如 下 : 


— test.dec # MREZA 


+—— test.enc # 测试 集 问 名 
— train.dec # 训练 集 管 句 


— train.enc # 训练 集 问 名 


train.enc 问 名 示例 如下: 


Gosh, if only we could find Kat a boyfriend... 
C'esc ma tete. This is my head 
How is our little Find the Wench A Date plan progressing? 


(2) 创建 词汇 表 ， 然 后 把 问 句 和 答 句 转换 成 对 应 的 id 形 式 。 词 汇 
表 的 文件 里 面 有 2 万 个 词汇 ， 如 下 : 


| 一 一 vocab20000.dec # 管 句 的 词汇 表 
L—— yocab20000.enc # 问 句 的 词汇 表 


词汇 表 的 内 容 如 下 : 


其 中 _GO、_EOS、_UNK、_PAD 是 在 seq2seq 模 型 中 使 用 的 特殊 标 
记 ， 用 来 填充 标记 对 话 : _GO 标记 对 话 开 始 ，_EOS 标 记 对 话 结束 ; 
_UNK 标 记 示 出 现在 词汇 表 中 的 字符 ， 用 来 蔡 换 稀有 词汇 ，_PAD 是 用 
来 填充 序列 ， 保 证 批 次 中 的 序列 有 相同 的 长 度 。 


转换 成 的 ids 文 件 如 下 : 


test.enc.ids20000 
train.dec.ids20000 


train.enc.ids20000 


问 句 和 答 句 转换 成 的 ids 文 件 中 ， 每 一 行 是 一 个 问 句 或 答 句 ， 每 一 
行 中 的 每 一 个 id 代表 问 句 或 答 句 中 对 应 位 置 的 词 ， 格 式 如 下 : 


185 4 4 4 146 131 5 1144 39 313 53 102 1176 12042 4 2020 9 2691 9 
792 15 4 

7518 4 

2993 49 88 109 54 13 765 466 252 4 4 4 


(3) 采用 编码 器 -解码 器 框架 进行 训练 。 
1. 定义 训练 参数 
这 里 ， 我 们 将 参数 写 到 一 个 专门 的 文件 seq2seq.ini 中 ， 如 下 : 


[strings] 

# 模式 : train, test, serve 
mode = train 

train_enc = data/train.enc 
train_dec = data/train.dec 
test_enc = data/test.enc 
test_dec = data/test.enc 


# 模型 文件 和 词汇 表 的 存储 路 径 


working_directory = working _dir/ 
[ints] 

# 词汇 表 大 小 
enc_vocab_size 
dec_vocab_size 
# LSTM 层 数 
num_layers = 3 
# 每 层 大 小 ， 可 以 取 值 : 128, 256, 512, 1024 
layer_size = 256 


20000 
20000 


max_train_data_size = 0 
batch_size = 64 

# ADVAN TR 
steps_per_checkpoint = 300 

[floats] 

learning_rate = 0.5 # 学 习 速 率 
learning_rate_decay_factor = 0.99 # 学 习 速率 下 降 系 数 
max_gradient_norm = 5.0 


4k 


2. 定义 网 络 模型 


下 面 来 定义 seq2seq 模 型 ， 该 模型 的 代码 在 seq2seq_model.py 中 ， 这 
个 代码 基于 TensorFlow 0.12 版 本 ， 读 者 可 以 重新 安装 试验 。 定 义 一 个 
seq2seq+Attention 模 型 类 ! ， 里 面 主要 包含 3 个 函数 : 


(1) 初始 化 模型 的 函数 (init) ; 
(2) 训练 模型 的 函数 (step) ; 
(3) 获取 下 一 批 次 训练 数据 的 函数 (get_batch) ° 


我 们 首先 来 看 如 何 初 始 化 模型 ， 如 下 : 


class Seq2SeqModel(object): 


def _ init__(self, source_vocab_size, target_vocab_size, buckets, 
size, 
num_layers, max_gradient_norm, batch_size, 
learning_rate, 


learning_rate_decay_factor, 


use_lstm=False, 


num_samples=512, forward_only=False): 


nn "构建 模型 

参数 : 

source_vocab_size: 问 句 词汇 表 大 小 

target_vocab_size: 答 句 词汇 表 大 小 

buckets: (I,0)， 其 中 I 指定 最 大 输入 长 度 ，0 指 定 最 大 输出 长 度 
size: 每 一 层 的 神经 元 数量 


num_layers: 模型 层 数 


max_gradient_norm: 梯度 将 被 削减 到 最 大 的 规范 


batch_size: 批 次 大 小 。 
learning_rate: 学 习 速 率 


于 训练 和 预测 的 批 次 大 小 ， 


可 以 不 同 


learning_rate_decay_factor: 调整 学 习 速率 
use_lstm: 使 用 LSTM 单元 来 代替 GRU 单元 
num_samples: 使 用 softmox 的 样本 数 
forward_only: 是 否 仅 构建 前 向 传播 


self.source_vocab_size 
self .target_vocab_size 
self.buckets = buckets 
self.batch_size = batch_size 
self.learning_rate tf.Variab 
trainable=False) 
self.learning_rate_decay_op = 


S 
t 


ource_vocab_size 
arget_vocab_size 


le(float(learning_rate), 


self.learning_rate.assign( 


self.learning_rate * learning_rate_decay_factor) 


self.global_step = tf.Variable 


output_projection = None 
softmax_loss function = None 


(0, trainable=False) 


样 的 sof tmax 


# 如 采样 本 量 比 词 i 表 的 量 小 ， 那么 要 


if num_samples > 0 and num _samples < self.target_vocab_size: 


= tf.get_variable("proj_w", 
tf.transpose(w) 


-E 
utput_projection (w, b) 


def sampled_loss(inputs, 


labels = tf.reshape(labels, 
return tf.nn.sampled_softmax_loss(w_t, 


num_samples, 


softmax_loss_function 


# 构建 RNN 
single_cell = 
if use_lstm: 


tf.get_variable("proj_b", 


[size, self.target_vocab_size] ) 


[self .target_vocab_size]) 


labels): 


[-1, 1]) 


b, inputs, labels, 


self.target_vocab_size) 


sampled_loss 


tf.nn.rnn_cell.GRUCel1(size) 


single cell = tf.nn.rnn_cell.BasicLSTMCell(size) 


cell = single_cell 
if num_layers > 1: 


cell = tf.nn.rnn_cell.MultiRNNCell([single_cell] * num_layers) 


# Attention 模 型 
def seq2seq_f(encoder_inputs, decoder_inputs, do_decode): 
return tf.nn.seq2seq.embedding_ attention_seq2seq( 

encoder_inputs, decoder_inputs, cell, 
num_encoder_symbols=source_vocab_size, 
num_decoder_symbols=target_vocab_size, 
embedding_size=size, 
output_projection=output_projection, 
feed_previous=do_decode) 


# 给 模型 填充 数据 
self.encoder_inputs [] 
self .decoder_inputs Ed 
self.target_weights = [] 
for i in xrange(buckets[-1][0]): 
self.encoder_inputs.append(tf.placeholder(tf.int32, shape= 
[None], 


name="encoder {0}".format(i) ) ) 
for i in xrange(buckets[-1][1] + 1): 
self.decoder_inputs.append(tf.placeholder(tf.int32, shape= 
[None], 


name="decoder {0}".format(i) ) ) 
self.target_weights.append(tf.placeholder(tf.float32, shape= 
[None], 


name="Wweight {0}".format(i))) 


# targets 的 值 是 解码 器 偏 移 1 位 
targets = [self.decoder_inputs[i + 1] 
for i in xrange(len(self.decoder_inputs) - 1)] 


# 训练 模型 的 输出 
if forward_only: 
self.outputs, self.losses = tf.nn.seq2seq.model_with_buckets( 
self.encoder_inputs, self.decoder_inputs, targets, 
self.target_weights, buckets, lambda x, y: seq2seq_f(x, y, 


True), 
softmax_loss_function=softmax_loss_function) 


if output_projection is not None: 
for b in xrange(len(buckets) ): 
self.outputs[b] = [ 
tf.matmul(output, output_projection[0]) + 
output_projection[1] 
for output in self.outputs[b] 
] 


else: 


self.outputs, self.losses = tf.nn.seq2seq.model_with_buckets( 
self.encoder_inputs, self.decoder_inputs, targets, 
self.target_weights, buckets, 
lambda x, y: seq2seq_f(x, y, False), 
softmax_loss_function=softmax_loss_function) 


# 训练 模型 时 ， 更 新 梯度 
params = tf.trainable_variables() 
if not forward_only: 
self.gradient_norms = [] 
self.updates = [] 
opt = tf.train.GradientDescentOptimizer(self.learning_rate) 
for b in xrange(len(buckets) ): 
gradients = tf.gradients(self.losses[b], params) 
clipped_gradients, norm = tf.clip_by_global_norm(gradients, 


max_gradient_norm) 
self.gradient_norms.append(norm) 
self.updates.append(opt.apply_gradients( 
Zip(clipped_gradients, params), 
global_step=self.global_step) ) 


self.saver = tf.train.Saver(tf.all_variables() ) 


def step(self, session, encoder_inputs, decoder_inputs, 
target_weights, 
bucket_id, forward_only): 
""" 运 行 模型 的 每 一 步 
参数 : 
session: tensorflow session 


encoder_inputs: 问 句 向 量 序列 
decoder_inputs: 管 句 向 量 序列 
target_weights: target weights 
bucket_id: 输入 的 bucket_id 


forward_only: 是 否 只 做 前 向 传播 


encoder_size, decoder_size = self.buckets[bucket_id] 
if len(encoder_inputs) != encoder_size: 
raise ValueError("Encoder length must be equal to the one in 
bucket, " 
" %d != %d." % (len(encoder_inputs), 
encoder_size) ) 


if len(decoder_inputs) != decoder_size: 
raise ValueError("Decoder length must be equal to the one in 
bucket, " 
" %d != %d." % (len(decoder_inputs), 
decoder_size) ) 
if len(target_weights) != decoder_size: 
raise ValueError("Weights length must be equal to the one in 
bucket, " 
" %d != %d." % (len(target_weights), 
decoder_size) ) 


# 输入 填充 

input_feed = {} 

for 1 in xrange(encoder_size): 
input_feed[self.encoder_inputs[1].name] = encoder_inputs[1] 

for 1 in xrange(decoder_size): 
input_feed[self.decoder_inputs[1].name] 
input_feed[self.target_weights[1].name] 


= decoder_inputs[1] 
= target_weights[1] 
last_target = self.decoder_inputs[decoder_size].name 
input_feed[last_target] = np.zeros([self.batch_size], 
dtype=np.int32) 


# 输出 填充 ， 与 是 否 有 后 向 传播 有 关 
if not forward_only: 
output_feed = [self.updates[bucket_id], 
self.gradient_norms[bucket_id], 
self.losses[bucket_id] ] 


else: 
output_feed = [self.losses[bucket_id] ] 
for 1 in xrange(decoder_size): 
output_feed.append(self.outputs[bucket_id][1]) 


outputs = session.run(output_feed, input_feed) 
if not forward_only: 
return outputs[1], outputs[2], None  # 有 后 向 传播 下 的 输出 :梯度 ， 损 
失 值 ，None 
else: 
return None, outputs[0], outputs[1:] # 仅 有 前 向 传播 下 的 输出 : 
None， 损 失 值 ，outputs 


接 下 来 是 get_batch 函 数 ， 它 的 主要 作用 是 为 训练 的 每 一 步 (step) 
产生 一 个 批 次 的 数据 。 


def get_batch(self, data, bucket_id): 


这 个 函数 的 作用 是 从 指定 的 桶 中 获取 一 个 批 次 的 随机 数据 ， 在 训练 的 每 步 (step) 中 


BM 
data: KEW (self.buckets) 的 元 组 ， 其 中 每 个 元 素 都 包含 用 于 创建 批 次 的 输 
入 和 输出 数据 对 的 列表 
bucket_id: 整数 ， 从 哪个 bucket 获 取 本 批 次 
返回 : 
一 个 包含 三 项 的 元 组 (encoder_inputs, decode_inputs, 
target_weights) 


3. 训练 模型 


修改 seq2seq.ini 文 件 中 的 mode 值 ， 当 值 为 “train”* 时 ， 可 以 运行 
execute.py 进 行 训练 。 关 键 逻辑 代码 如 下 : 


def train(): 
# 准备 数据 集 
print("Preparing data in %s" % gConfig[' working_ directory']) 
enc_train, dec_train, enc_dev, dec_dev, _, _ = 

data_utils. prepare custom data 


(gConfig[ 'working_directory'],gConfig['train_enc'],gConfig[ 'train_d 
ec'], 


gConfig[ 'test_enc'],gConfig[ 'test_dec'],gConfig[ 'enc_vocab_size'], 
gConfig['dec_vocab_size']) 


config = tf.ConfigProto() 
config.gpu_options.allocator_type = 'BFC' 


with tf.Session(config=config) as sess: 
# 构建 模型 
print("Creating %d layers of %d units." % 
(gConfig['num_layers'], gConfig 
['layer_size'])) 
model = create_model(sess, False) 


# 把 数据 读 入 桶 (bucket) 并 计算 桶 的 大 小 
print ("Reading development and training data (limit: %d)." 
% gConfig['max_train_data_size']) 
dev_set = read_data(enc_dev, dec_dev) 
train_set = read_data(enc_train, dec_train, 
gConfig[ 'max_train_data_size']) 
train_bucket_sizes = [len(train_set[b]) for b in 


xrange(len(_buckets) ) ] 
train_total_size = float(sum(train_bucket_sizes) ) 
train_buckets_scale = [sum(train_bucket_sizes[:i + 1]) / 
train_total_size 
for i in xrange(len(train_bucket_sizes) ) ] 


# 开始 训练 循环 

step_time, loss = 0.0, 0.0 
current_step = 0 
previous_losses = [] 

while True: 


# 随机 生成 一 个 0-1 的 数 ， 在 生成 bucket_id 中 使 用 

random_number_01 = np.random.random_sample() 

bucket_id = min([i for i in xrange(len(train_buckets_scale) ) 
if train_buckets_scale[i] > random_number_01] ) 


# 获取 一 个 批 次 的 数据 ， 并 进行 一 步 训练 
start_time = time.time() 
encoder_inputs, decoder_inputs, target_weights = 
model.get_batch( 
train_set, bucket_id) 
_, step_loss, _ = model.step(sess, encoder_inputs, 
decoder_inputs, 


target_weights, bucket_id, False) 
step_time += (time.time() - start_time) / 
gConfig[ 'steps_per_checkpoint' ] 
loss += step_loss / gConfig['steps_per_checkpoint' ] 
Current_step += 1 


# 保存 检查 点 文件 ， 打 印 统计 数据 


if current_step % gConfig['steps_per_checkpoint'] == 0: 


perplexity = math.exp(loss) if loss < 300 else float('inf') 
print ("global step %d learning rate %.4f step-time %.2f 
perplexity " 
"%.2F" % (model.global_step.eval(), 
model.learning_rate.eval(), 
step_time, perplexity) ) 
# 如 果 损 失 值 在 最 近 3 次 内 没有 再 降低 ， 就 减 小 学 习 率 ， 
if len(previous_losses) > 2 and loss > 
max(previous_losses[-3:]): 
sess.run(model.learning_rate_decay_op) 
previous_losses.append(loss) 
# RAMEE ROC, FET Rams 
checkpoint_path = os.path.join(gConfig['working_directory'], 
"seq2seq.ckpt") 
model.saver.save(sess, checkpoint_path, 
global_step=model.global_step) 
step_time, loss = 0.0, 0.0 


4. 验证 模型 


修改 seq2seq.ini 文 件 中 的 mode 值 ， 当 值 为 “test* 时 ， 可 以 运行 
execute.Dy 进 行 测试 。 关 键 逻 辑 代 码 如 下 : 


def decode(): 
with tf.Session() as sess: 
# 建立 模型 ， 并 定义 超 参数 batch_size 
model = create_model(sess, True) 


model.batch_size = 1 # 这 里 一 次 只 解码 一 个 句子 


# 加 载 词汇 表 文 件 
enc_vocab_path = 
os.path.join(gConfig[ 'working_directory'],"vocab%d.enc" % 
gConfig[ 'enc_vocab_size']) 


dec_vocab_path = 
os.path. join(gConfig[ 'working_directory'],"vocab%d.dec" % 
gConfig[ 'dec_vocab_size']) 


enc_vocab, _ = data_utils.initialize_vocabulary(enc_vocab_path) 
, rev_dec vocab = 
data_utils.initialize_vocabulary(dec_vocab_path) 


# 对 标准 输入 的 句子 进行 解码 
sys.stdout.write("> ") 
sys.stdout.flush() 
sentence = sys.stdin.readline() 
while sentence: 
# 得 到 输入 句子 的 token-ids 
token_ids = 
data_utils.sentence_to_token_ids(tf.compat.as_bytes(sentence), 
enc_vocab ) 


# 计算 这 个 token_ids 属 于 哪 一 个 桶 (bucket) 
bucket_id = min([b for b in xrange(len(_buckets) ) 
if _buckets[b][0] > len(token_ids)]) 
# 将 句子 送 入 到 模型 中 
encoder_inputs, decoder_inputs, target_weights = 
model. get_batch( 
{bucket_id: [(token_ids, [])]}, bucket_id) 


_, _, Output_logits = model.step(sess, encoder_inputs, 
decoder_inputs, 
target_weights, bucket_id, 
True) 


# 这 是 一 个 贪心 的 解码 器 ， 输 出 只 是 output_1ogits 的 argmaxes。 


outputs = [int(np.argmax(logit, axis=1)) for logit in 
output_logits] 

# 如 果 输 出 中 有 E0S 符 号 ， 在 E0S 处 切断 

if data_utils.EOS_ID in outputs: 

outputs = outputs[:outputs.index(data_utils.EOS_ID)] 

# 打印 出 与 输出 句子 对 应 的 法 语句 子 

print(" ".join([tf.compat.as_str(rev_dec_vocab[output]) for 
output in 


outputs] )) 
print("> a end="") 
sys.stdout.flush() 
sentence = sys.stdin.readline() 


我 们 训练 了 417 次 后 ， 生 成 了 大 小 为 209 MB 的 seq2seq.ckpt- 
417.data-00000-of-00001 模 型 文件 ， 开 始 进 行 测试 ， 结 果 如 下 ( 行 首 
有 “>” 的 是 我 的 输入 ， 没 有 的 是 机 器 人 的 输出 ) : 


如 有 果 再 输入 复杂 的 语句 ， 机 器 人 的 表现 就 不 尽 如 人 意 了 。 这 只 有 是 
个 模型 的 简单 演示 实现 ， 侧 重 于 关注 聊天 机 器 人 的 原理 。 有 兴趣 的 读 
者 可 以 以 优质 的 中 文 对 话语 料 训练 一 个 简易 版 的 中 文 对 话机 器 人 。 


前 面 介 绍 了 基于 文字 的 智能 聊天 机 瑚 人 ， 如 有 果 再 结合 上 语音 识 
别 ， 就 产生 了 可 以 直接 对 话 的 机 器 人 。 它 的 系统 架构 |) 如 图 11-4 所 
ZR œ 


图 11-4 


国内 的 乔 能 聊天 机 右 人 有 很 多 。 例 如 ， 图 灵机 右 人 公司 ， 痢 力 于 
提高 对 话 和 语义 准确 度 ， 提 升 中 文 语 境 下 的 智能 程度 ， 竹 间 智 能 科技 
也 在 研究 有 记忆 、 自学 习 的 情感 机 器 人 ， 致 力 于 机 器 人 可 以 真正 理解 
多 模式 多 渠道 的 信息 ， 并 给 予 高 度 拟 人 化 的 回应 ， 硕 望 能 以 最 理想 的 
目 然 语 言 交流 模式 交流 ， 此 外 ， 腾 讯 公司 也 有 很 多 的 社交 对 话 数 据 ， 
在 聊天 机 峰 人 方面 可 能 会 有 更 大 的 潜力 。 


目前 国内 微 信 应 用 应 该 是 有 最 庞大 的 目 然 语 言 交流 的 语料库 ， 那 
么 微 信 如 有 果 在 这 方面 发 力 ， 利 用 它 庞 大 真实 的 数据 ， 绪 合 它 的 小 程序 
希望 成 为 所 有 服务 的 入 口 的 目的 ， 有 很 多 事情 可 以 想象 。 例 如 ， 示 来 
Nye ise, RD a meh, EARN, EMER 
到 外 卖 的 小 程序 ， 很 容易 完成 下 单 ， 用 完 即 走 。 


11.4 小 结 


本 章 主要 介绍 了 TensorFlow 在 自然 语言 处 理 中 的 应 用 ， 以 英文 数字 
语言 识别 和 智能 聊天 机 器 人 为 例 ， 讲 解 了 如 何 处 理 数据 集 ， 构 建 网 


分 析 、 信 息 检 索 与 问答 系统 、 机 器 翻 详 、 语 言 合成 等 ， 读 着 也 可 以 多 


进行 尝试 。 


[1] 广义 的 自然 语言 处 理 包含 语音 处 理 及 文本 处 理 ， 狭 义 的 单 指 理解 
和 处 理 文本 。 本 书 均 指 广义 的 概念 。 


[2] http://karpathy.github.io/2015/05/21/rmmn-effectiveness/ 


[3] 本 市 代码 参考 https://github.com/pannous/tensorflow-speech- 


recognition/blob/master/speech2text-tflearn.py ° 
[4] http://pannous.net/spoken_numbers.tar 


[5] ”本 市 代码 参考 https://github.com/suriyadeepan/easy_seq2seq 。 需 要 
依赖 TensorFlow 0.12.1 环 境 ， 请 读者 自行 适 配 。 


[6] http://www.cs.cornell.edu/~cristian/Cornell_Movie- 


Dialogs_Corpus.html 


[7] “参考 论文 《Grammar as a Foreign Language) : 
http://arxiv.org/abs/1412.7449 ° 


[8] “参见 《中 国人 工 智 能 学 会 通讯 》2016 年 第 6 卷 第 1 期 。 
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第 12 章 ”图像 与 语音 的 结合 
斯 坦 福 大 学 人 工 智能 实验 室 的 李 飞 飞 教授 在 2017 年 极 客 大 会 上 曾 
经 讲 过 ， 实 现 人 工 智 能 要 有 3 个 要 素 : 语法 (syntax) 、 语 义 


(semantics) 和 推理 (inference) ， 如 图 12-1 所 示 。 


语义 
理解 结构 


感知 世界 


语法 


图 12-1 


PENA PRET IEE AREIA, Ee, E A AA 
觉 层 面 ， 通 过 语法 OF SOR ee ART, AERES E 
的 解析 ) 和 语义 《对 语言 来 说 是 语义 ， 对 视觉 来 说 是 物体 动作 的 含 
SM) 作为 模型 的 输入 训练 数据 ， 最 终 实 现 推 理 的 能 力 ， 也 就 是 把 训练 
中 学 习 到 的 能 力 应 用 到 工作 中 去 ， 从 新 的 数据 中 推断 出 结论 。 于 


12.1 看 图 说 话 模型 


将 图 像 和 语言 融合 ， 就 是 “看 图 说 话 ”。 看 图 说 话 的 目标 是 ， 输 入 
一 张 图 片 ， 和 希望 我 们 训练 的 看 图 说 话 模型 能 够 根据 图 像 给 出 描述 图 像 
内 容 的 目 然 语言 ， 讲 出 一 个 故事 。 这 是 一 个 很 大 的 挑战 ， 因 为 这 需要 
在 图 像 信息 和 文本 信息 这 两 种 不 同形 式 的 信息 之 间 进 行 “翻译 ”。 


本 节 我 们 以 TensorFlow 的 官方 模型 外 为 例 ， 讲 解 如 何 训练 一 个 看 
图 说 话 的 模型 。 这 个 模型 要 达到 的 目标 是 :我们 给 出 一 张 图 厂 ， 机 器 
要 给 出 “A person on a beach flying a kite” 的 描述 ， 如 图 12-2 所 示 。 


Aperson on a beach 
flying a kite. 


图 12-2 
12.1.1 原理 


看 图 说 话 模 型 采用 的 是 编码 器 -解码 右 框 架 ， 先 将 图 像 编 码 成 固定 
的 中 间 和 天 量 ， 然 后 解码 成 自然 语言 的 描述 。 编 码 器 -解码 器 框架 如 图 12- 


3 所 示 。 这 里 编码 器 采用 的 是 Inception V3 图 像 识别 模型 ， 解 码 器 采用 的 
是 LSTM 网 络 。 


4 
—e| pela a 
H 


图 片 


图 12-3 


在 图 12-3 中 ，f{s 0 ，,s 1 ,.…, Sn -1 JRE, {We s 0 ,We S 1,.…., Wo 
s， 1} 是 它们 对 应 的 词 租 入 疝 量 ，LSTM 的 输出 {p 1, Poso pn } 是 由 句 
子 中 的 下 一 个 词 生成 的 概率 分 布 。{flogp 1 (s1),logp，(s，) ,logp， 
(sn )} 是 正确 词 在 每 一 个 步 又 的 对 数 似 然 ， 这 几 个 值 的 总 和 取 人 负数 是 我 
们 模型 的 最 小 化 目标 。 


12.1.2 最 佳 实践 


这 里 使 用 微软 的 Microsoft COCO Caption 数 据 集 中 ， 每 张 图 片 有 5 
个 标题 文字 。Microsoft COCO Caption 数 据 集 有 两 部 分 ， 即 2014 年 版 本 
和 2015 年 版 本 。 这 里 采用 的 是 2014 年 版 本 员 。 


为 了 能 够 直接 使 用 预 训练 的 Inception V3 模型 ， 这 里 采用 
TensorFlow-SlimA (Ra KÆ [5] o 


这 里 直接 用 现成 的 代码 来 训练 模型 ， 主 要 讲解 构建 模型 的 过 程 。 
训练 的 代码 在 tensormodels/im2txt/im2txt/train.py 中 ， 构 建 模型 的 代码 在 
tensormodels/im2txt/im2txt/show_ and_tell model.py 中 。 


ShowAndTellModel 的 build 函 数 中 说 明了 构建 模型 的 过 程 : 


class ShowAndTellModel(object): 
def build(self): 


self.build_inputs() # 构建 输入 数据 
self.build_image_embeddings() # 采用 Inception V3 构建 


AA aA Ta] 
self .build_seq_embeddings() # 构建 输入 序列 的 embeddings 
self.build_model() # 将 CNN 和 LSTM 串 联 起 来 ， 构 建 完整 模型 
self.setup_inception_initializer() # 载 入 Inception V3 预 训练 模型 
self.setup_global_step() # 记录 全 局 的 迭代 次 数 


我 们 看 看 训练 时 是 如 何 做 的 : 


def main(unused_argv): 


assert FLAGS.input_file_pattern, "--input_file_pattern is 
required" 
assert FLAGS.train_dir, "--train_dir is required" 


model_config = configuration.ModelConfig( ) 
model_config.input_file_pattern = FLAGS.input_file_pattern 
model_config.inception_checkpoint_file = 

FLAGS. inception_checkpoint_file 


training_config = configuration.TrainingConfig() 


# 创建 训练 结果 的 存储 路 径 

train_dir = FLAGS.train_dir 

if not tf.gfile.IsDirectory(train_dir): 
tf.logging.info("Creating training directory: %s", train_dir) 
tf.gfile.MakeDirs(train_dir) 


# 建立 TensorFlow 数 据 流 图 
g = tf.Graph() 
with g.as_default(): 
# 构建 模型 
model = show_and_tell_model.ShowAndTellModel( 
model_config, mode="train", 
train_inception=FLAGS.train_inception) 
model. build() 


# 定义 学 习 率 
learning_rate_decay_fn = None 
if FLAGS.train_inception: 
learning_rate = 
tf.constant(training_config.train_inception_learning_rate) 
else: 
learning_rate = 
tf.constant(training_config.initial_learning_rate) 
if training _config.learning_rate_decay_factor > 0: 
num_batches_per_epoch = 
(training_config.num_examples_per_epoch / 
model_config.batch_size) 
decay_steps = int(num_batches_per_epoch * 
training _config.num_epochs_per_decay) 


def _learning_rate_decay_fn(learning_rate, global_step): 
return tf.train.exponential_decay/( 
learning_rate, 
global_step, 
decay_steps=decay_steps, 
decay_rate=training_config.learning_rate_decay_factor, 
staircase=True) 


learning_rate_decay_fn = _learning_rate_decay_fn 


# 定义 训练 的 操作 

train_op = tf.contrib.layers.optimize_loss( 
loss=model.total_loss, 
global_step=model.global_step, 
learning _rate=learning_rate, 
optimizer=training config.optimizer, 
clip_gradients=training_config.clip_gradients, 
learning _rate_decay_fn=learning_rate_decay_fn) 


Saver = 
tf.train.Saver(max_to_keep=training_config.max_checkpoints_to_keep) 


# 训练 
tf.contrib.slim. learning. train( 
train_op, 


train_dir, 
log_every_n_steps=FLAGS.log_every_n_steps, 
graph=g, 

global_step=model.global_step, 
number_of_steps=FLAGS.number_of_steps, 
init_fn=model.init_fn, 

saver=Saver ) 


最 后 运行 tensormodels/ im2txtyim2txt/run_inference.py 来 预 测 生 成 的 
模型 。 输 入 一 张 图 片 ， 看 看 它 给 出 的 描述 。 输 入 图 12-4 所 示 的 图 片 。 


图 12-4 


结 末 如 下 : 


Captions for image COCO_val2014_000000224477.jpg: 
©) a man riding a wave on top of a surfboard . (p=0.040413) 


1) a person riding a surf board on a wave (p=0.017452) 
2) a man riding a wave on a surfboard in the ocean . (p=0.005743) 


它 给 出 了 3 个 带 概 率 分 布 的 句子 ， 意 思 表 达 得 比较 准确 ， 而 且 语 法 
也 合乎 目 然 逻辑 。 


我 们 也 布 望 今后 看 图 说 话 能 够 给 出 更 长 的 插 述 。 现 在 有 些 公 司 的 
目 动 化 新 闻 写 作 机 器 人 已 经 可 以 根据 视频 直播 结合 一 些 历 史 数据 ， 写 
作 关 于 奥运 、 体 育 等 类 型 的 稿件 了 。 


12.2 小 结 


本 革 主 要 讲述 了 图 像 和 自然 语言 相 结 合 的 应 用 一 一 看 图 说 话 。 这 
个 模型 结合 了 卷 积 神经 网 络 Inception V3 模型 和 循环 神经 网 络 LSTM 模 
型 。 实 现 过 程 中 ， 首 先 将 图 像 转 换 成 图 像 散 入 同 量 ， 然 后 用 类 似 于 词 
藤 入 的 方法 来 训练 。 天 于 图 像 和 语言 相 结 合 的 例子 还 有 图 像 语义 标 
注 、 图 像 语义 分 析 等 ， 读 者 可 以 目 行 实 践 。 


[1] ”参考 论文 《The Syntax, Semantics and Inference Mechanism in 
Natural Language) : http://www.aaai.org/Papers/Symposia/Fall/1996/FS- 
96-04/FS96-04-010.pdf ° 


[2] https://github.com/tensorflow/models/tree/master/im2txt 


[3]  http://mscoco.org/ ° Microsoft COCO Caption 数 据 集 是 建立 在 
Microsoft Common Objects in Context (COCO) 数据 集 的 工作 基础 上 
的 。COCO 含 有 超过 30 万 张 图 片 ，200 万 个 标记 实体 。 Microsoft COCO 
Caption 是 对 原 COCO 数 据 集中 约 33 万 张 图 片 ， 使 用 亚马逊 公司 的 
Mechanical Turk 服 务 ， 人 工地 为 每 张 图 片 生成 了 至 少 5 句 标 注 ， 标 注 语 
句 总 共 超过 了 150 万 句 。 


[4] ”2014 年 版 本 中 训练 集 有 82 783 张 图 片 ， 验 证 集 有 40 504 张 图 片 和 
测试 集 有 40 775 张 图 片 。 


[5] https://github.com/tensorflow/models/tree/master/slim 


第 13 章 ”生成 式 对 抗 网 络 


生成 式 对 抗 网 络 (generative adversarial network, GAN) 是 由 谷歌 
公司 在 2014 年 提出 的 一 个 网 络 模型 ， 主 要 灵感 来 自 于 二 人 博 讲 中 的 零 
和 博 穿 ， 也 是 目前 最 火热 的 非 监督 深度 学 习 的 代表 。“GAN 之 父 ?Tan 丁 
Goodfellow 也 被 公认 为 人 工 智能 的 顶级 专家 。 


Yann Lecun 在 Quora 上 答题 时 曾 说 ， 他 最 激动 的 深度 学 习 进展 是 生 
成 式 对 抗 网 络 。 


13.1 生成 式 对 抗 网 络 的 原理 


生成 式 对 抗 网 络 包含 一 个 生成 模型 (generative model, G) 和 一 
个 判别 模型 (discriminative model, D) 。 本 节 内 容 参 考 J Ian J. 
Goodfellow ` Jean Pouget-Abadie ` Mehdi Mirza ` Bing Xu ` David 
Warde-Farley ` Sherjil Ozair ` Aaron Courville ` Yoshua Bengio 的 论文 


«Generative Adversarial Networks) H 。 


生成 式 对 抗 网 络 的 网 络 结构 如 图 13-1 所 示 。 


真 / 假 


判别 
模型 


训练 集 


生成 式 对 抗 网 络 主要 解决 的 问题 是 如 何 从 训练 样本 中 学 习 出 新 样 
本 。 生 成 模型 束 是 负责 训练 出 样本 的 分 布 ， 如 采 训 练 样本 是 图 片 承 生 
成 相似 的 图 片 ， 如 果 训 练 样本 是 文章 句子 就 生成 相似 的 文章 句子 。 判 
别 模 型 是 一 个 二 分 类 右 ， 用 来 判断 输入 样本 十 真实 数据 还 是 训练 生成 
的 样本 。 


图 13-1 


生成 式 对 抗 网 络 的 优化 是 一 个 二 元 极 小 极 大 博弈 (minimax two- 
player game) 问题 ， 它 的 目的 是 使 生成 模型 的 输出 再 输入 给 判别 模型 
时 ， 判 别 模型 很 难 判 断 是 真实 数据 还 是 虚假 数据 。 训 练 好 的 生成 模 
型 ， 有 能 力 把 一 个 噪声 向 量 转 化 成 和 训练 集 类 似 的 样本 。 


具体 到 每 一 个 生成 式 对 抗 网 络 的 模型 ， 有 很 多 种 结构 ， 不 过 整体 
思路 是 不 变 的 ， 如 图 13-2 所 示 。 


Vanila GAN Discriminator Looks at Latent Variables Discriminator Predicts Latent Variables 


Vanilla GAN Conditional GAN Bidirectional GAN Semi-Supervised GAN Auxiliary Classifier GAN 


InfoGAN 
(Goodfellow, et,al,2014) (Mirza & Osindero.2014) (Donahueetal2016; Dumoulinet al.2016)](Odena2016; Salimanset al,2016)} (Chen,et.al.2016) (Odena.et,al,2016) 


图 13-2 [2] 


读者 也 可 以 设计 自己 的 GAN 网 络 架 构 。 我 们 主要 讲解 辅助 分 类 器 
生成 式 对 抗 网 络 (auxiliary classifier GAN, AC-GAN) 的 实现 。 


13.2 ”生成 式 对 抗 网 络 的 应 用 


生成 式 对 抗 网 络 取得 的 成 采 有 很 多 ， 目 前 在 生成 数字 和 生成 人 脸 
图 像 方面 表现 都 非常 好 ， 目 前 也 是 深度 学 习 人 研究 的 一 个 重要 思路 。 图 
13-3 给 出 的 是 训练 好 的 生成 式 对 抗 网 络 的 生成 模型 产生 出 来 的 一 些 样 
AK 


图 13-3 [3] 


13.3 ”生成 式 对抗 网 络 的 实现 四 


我 们 拿 AC-GAN 作 为 例子 ， 看 如 何在 MNIST 数 据 集 上 实现 生成 式 
对 抗 网 络 。 这 个 实现 代码 是 以 Augustus Odena ` Christopher Olah 和 
Jonathon Shlens 的 论文 《Conditional Image Synthesis With Auxiliary 
Classifier GANs》 bb 为 基础 的 。 


正如 图 13-2 所 示 ， 我 们 通过 噪声 ， 让 生成 模型 G 生 成 虚假 数据 ， 然 
后 和 真实 数据 一 起 送 到 判别 模型 D 当 中 ， 判 别 模型 一 方面 输出 这 个 数据 


的 真 / 假 ， 男 一 方面 输出 这 个 图 片 的 分 类 《对 于 MNIST 来 说 就 是 0 一 
9) 。 我 们 现在 来 看 具体 的 代码 实现 。 


首先 定义 生成 模型 ， 目 的 是 要 生成 一 对 (zL) 数据 ， 其 中 z 是 品 
声 向 量 , LÆ (1, 28, 28) 的 图 像 空间 ， 如 下 : 


def build_generator(latent_size): 
cnn = Sequential() 


cnn.add(Dense(1024, input_dim=latent_size, activation='relu')) 
cnn.add(Dense(128 * 7 * 7, activation='relu' )) 
cnn.add(Reshape((128, 7, 7))) 


# FORE, ARTA 14x14 

cnn.add(UpSampling2D(size=(2, 2))) 

cnn.add(Convolution2D(256, 5, 5, border_mode='same', 
activation='relu', init='glorot_normal' ) ) 


# 上 采样 ， 图 像 尺 寸 变 为 28x28 

cnn.add(UpSampling2D(size=(2, 2))) 

cnn.add(Convolution2D(128, 5, 5, border_mode='same', 
activation='relu', init='glorot_normal' ) ) 


# 规约 到 1 个 通道 
cnn.add(Convolution2D(1, 2, 2, border_mode='same', 
activation='tanh', init='glorot_normal' ) ) 


成 模型 的 输入 层 ， 特 征 向 量 
nt = Input(shape=(latent_size, )) 


# 生成 模型 的 输入 层 ， 标 记 
image_class = Input(shape=(1,), dtype='int32' ) 


cls = Flatten()(Embedding(10, latent_size, init='glorot_normal' ) 
(image_class) ) 


h = merge([latent, cls], mode='mul' ) 


fake_image = cnn(h) # 输出 虚假 图 片 


return Model(input=[latent, image_class], output=fake_image) 


接 下 来 我 们 定义 判别 模型 ， 输入 (1, 28, 28) 的 图 片 ， 输 出 有 两 个 
值 ， 一 个 是 判别 模型 认为 这 张 图片 是 否 是 虚假 图 片 ， 男 一 个 是 判别 模 
型 认为 这 张 图 片 所 属 的 分 类 。 


def build_discriminator(): 
激活 画 数 Leaky ReLU 来 替换 标准 的 卷 积 神经 网 络 中 的 激活 画 数 
Sequential() 


.add(Convolution2D(32, 3, 3, border_mode='same', subsample=(2, 


input_shape=(1, 28, 28))) 
.add(LeakyReLU()) 
.add(Dropout(0.3)) 


.add(Convolution2D(64, 3, 3, border_mode='same', subsample=(1, 


.add(LeakyReLU()) 
.add(Dropout(0.3)) 


.add(Convolution2D(128, 3, 3, border_mode='same', subsample= 
(2, 2))) 
cnn.add(LeakyReLu() ) 
cnn.add(Dropout (0.3) ) 


cnn.add(Convolution2D(256, 3, 3, border_mode='same', subsample= 
(1, 1))) 

cnn.add(LeakyReLU()) 

cnn.add(Dropout(0.3)) 


cnn.add(Flatten()) 
image = Input(shape=(1, 28, 28)) 
features = cnn(image) 


# 有 两 个 输出 

# 输出 真 假 值 ， 范 围 在 9 一 1 

fake = Dense(1, activation='sigmoid', name='generation' ) 
(features) 

# 辅助 分 类 器 ， 输 出 图 片 的 分 类 


aux = Dense(10, activation='softmax', name='auxiliary')(features) 


return Model(input=image, output=[fake, aux] ) 


下 面 开始 写 训 练 的 过 程 ， 我 们 进行 50 轮 (epoch) ， 并 把 权重 保存 
下 来 ， 每 轮 也 把 虚假 数据 生成 的 图 片 保 存 下 来 ,便于 观察 虚假 数据 的 
演化 过 程 ， 代 码 如 下 : 


if name == ' main _': 


H 定义 超 参数 
nb_epochs = 50 
batch_size = 100 
latent_size = 100 


# 优化 器 的 学 习 率 
adam_lr = 0.0002 
adam_beta_1 = 0.5 


# 构建 判别 网 
discriminator = build_discriminator() 
discriminator.compile( 
optimizer=Adam(lr=adam_lr, beta_1=adam_beta_1), 
loss=['binary_crossentropy', 'sparse_categorical_crossentropy' ] 


) 
# 构建 生成 式 网 


generator = build_generator(latent_size) 
generator .compile(optimizer=Adam(1lr=adam_lr, beta_i=adam_beta_1), 
loss='binary_crossentropy' ) 


latent = Input(shape=(latent_size, )) 
image_class = Input(shape=(1,), dtype='int32') 


# 生成 虚假 图 片 


fake = generator([latent, image_class] ) 


# 生成 组 合 模型 
discriminator.trainable = False 
fake, aux = discriminator (fake) 
combined = Model(input=[latent, image_class], output=[fake, aux]) 


combined.compile(optimizer=Adam(lr=adam_lr, beta_i=adam_beta_1), 
loss=['binary_crossentropy', 'sparse_categorical_crossentropy' ] 


) 


# 将 mnist 数 据 转 化 为 (...，1，28，28) 维度 ， 并 且 取 值 范围 为 [-1，11] 
(X_train, y_train), (X_test, y_test) = mnist.load_data() 
X_train = (X_train.astype(np.float32) - 127.5) / 127.5 
X_train = np.expand_dims(X_train, axis=1) 


X_test 
X_test 


(X_test.astype(np.float32) - 127.5) / 127.5 
np.expand_dims(X_test, axis=1) 


nb_train, nb_test = X_train.shape[0], X_test.shape[0] 


train_history = defaultdict(list) 
test_history = defaultdict(list) 


for epoch in range(nb_epochs): 
print('Epoch {} of {}'.format(epoch + 1, nb_epochs) ) 


nb_batches = int(X_train.shape[0] / batch_size) 
progress_bar = Progbar(target=nb_batches) 


epoch_gen_loss = [] 
epoch_disc_loss = [] 
for index in range(nb_batches): 
progress_bar.update( index) 
# 产生 一 个 批 次 的 噪声 数据 


noise = np.random.uniform(-1, 1, (batch_size, latent_size) ) 


# 获取 一 个 批 次 的 真实 数据 

image_batch = X_train[index * batch_size:(index + 1) * 
batch_size] 

label_batch = y_train[index * batch_size:(index + 1) * 
batch_size] 


# 生成 一 些 噪声 标记 


sampled_labels = np.random.randint(0, 10, batch_size) 


# 产生 一 个 批 次 的 虚假 图 片 
generated_images = generator.predict( 
[noise, sampled_labels.reshape((-1, 1))], verbose=0) 


np.concatenate((image_batch, generated_images) ) 
np.array([1] * batch_size + [0] * batch_size) 
X_y = np.concatenate((label_batch, sampled_labels), 


epoch_disc_loss.append(discriminator.train_on_batch(X, [y, 
aux_y])) 


# 产生 两 个 批 次 的 噪声 和 标记 
noise = np.random.uniform(-1, 1, (2 * batch_size, 
latent_size) ) 
sampled_labels = np.random.randint(0, 10, 2 * batch_size) 


# 我 们 训练 生成 模型 来 欺骗 判别 模型 ， 所 以 将 输出 的 真 / 假 都 设 为 真 


trick = np.ones(2 * batch_size) 
epoch_gen_loss.append(combined.train_on_batch( 
[noise, sampled_labels.reshape((-1, 1))], [trick, 
sampled_labels]) ) 


print('\nTesting for epoch {}:'.format(epoch + 1)) 


# 评估 测试 集 


# 产生 一 个 者 批 次 的 噪声 数据 


noise = np.random.uniform(-1, 1, (nb_test, latent_size) ) 


sampled_labels = np.random.randint(0, 10, nb_test) 
generated_images = generator.predict( 
[noise, sampled_labels.reshape((-1, 1))], verbose=False) 


p.concatenate((X_test, generated_images) ) 
p.array([1] * nb_test + [0] * nb_test) 
ux_y = np.concatenate((y_test, sampled_labels), axis=0) 


# 看 看 判别 模型 是 否 能 判别 
discriminator_test_loss = discriminator.evaluate(X, [y, 
aux_y], verbose=False) 


=n 
=n 


discriminator_train_loss = np.mean(np.array(epoch_disc_loss), 
axis=0) 


# 创建 两 个 批 次 新 的 噪声 数据 
noise = np.random.uniform(-1, 1, (2 * nb_test, latent_size)) 
sampled_labels = np.random.randint(0, 10, 2 * nb_test) 


trick = np.ones(2 * nb_test) 


generator_test_loss = combined. evaluate( 
[noise, sampled_labels.reshape((-1, 1))], 
[trick, sampled_labels], verbose=False) 


generator_train_loss = np.mean(np.array(epoch_gen_loss), 
axis=0) 


# 把 损失 值 等 性 能 指标 记录 下 来 ， 并 输出 
train_history['generator'].append(generator_train_loss) 


train_history['discriminator'].append(discriminator_train_loss) 


test_history['generator'].append(generator_test_loss) 
test_history['discriminator'].append(discriminator_test_loss) 


print('{0:<22s} | {1:4s} | {2:15s} | 


{3:5s}'.format('component', 
*discriminator.metrics_names) ) 
print('-' * 65) 


ROW_FMT = '{0:<22s} | {1:<4.2f} | {2:<15.2f} | {3:<5.2f}!' 
print(ROW_FMT.format('generator (train)', 
*train_history['generator'][-1])) 
print(ROW_FMT.format('generator (test)', 
*test_history[ 'generator']|[-1])) 
print (ROW_FMT.format('discriminator (train)', 
*train_history ['discriminator'][-1])) 
print(ROW_FMT.format('discriminator (test)', 
*test_history ['discriminator'][-1])) 


# 每 一 个 eopch 保 存 一 次 权重 


generator.save_weights('params_generator_epoch_{0:03d}.hdf5'.format 
(epoch), True) 


discriminator.save_weights('params_discriminator_epoch_{0:03d}.hdf5 


format(epoch), True) 


# 生成 一 些 可 视 化 的 虚假 的 数字 来 看 演化 过 程 


noise = np.random.uniform(-1, 1, (100, latent_size)) 


sampled_labels = np.array([[i] * 10 for i in 
range(10)]).reshape(-1, 1) 


generated_images = generator.predict([noise, sampled_labels], 
verbose=0 ) 


# 整理 到 一 个 方 格 中 
img = (np.concatenate([r.reshape(-1, 28) 
for r in np.split(generated_images, 10) 
], axis=-1) * 127.5 + 


127.5).astype(np.uints) 


Image. fromarray(img).save('plot_epoch_{0:03d}_generated.png'.format 
(epoch) ) 


pickle.dump({'train': train_history, 'test': test_history}, 
open('acgan-history.pkl', 'wb')) 


训练 结束 后 ， 会 创建 以 下 3 类 文件 。 


e paramsdiscriminator_epoch {{epoch_number}}.hdf5: 判别 模型 的 权 


e paramsgenerator_epoch {{epoch_number}}.hdf5: 生成 模型 的 权重 


e plotepoch {{epoch_number}}_generated.png: 产生 的 一 些 虚 假 数据 


的 图 片 。 


在 训练 过 程 中 ， 刚 开始 看 到 的 图 像 是 条 乱 的 。 例 如 ， 第 一 轮 结 


后 的 图 像 如 图 13-4 所 示 。 


在 5 轮 后 ， 可 以 看 到 一 些 


Rt 


不 


多 的 图 像 ， 如 图 13-5 所 示 。 
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图 13-5 
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展 好 的 图 像 ， 如 图 13-6 所 
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可 以 得 到 一 
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图 13-6 


练 损失 就 已 经 收敛 到 纳什 均衡 点 (Nash 


训 


在 15 轮 左右 ， 


FKE, 


equilibrium point) 


13.4 ”生成 式 对 抗 网 络 的 改进 


生成 式 对 抗 网 络 (generative adversarial network, GAN) 在 无 监督 
学 习 上 是 非常 有 效 的 。 但 是 ， 常 规 的 生成 式 对 抗 网 络 的 判别 器 使 用 的 
是 Sigmoid 交 义 炉 损失 函数 ， 这 在 学 习 过 程 中 可 能 导致 梯度 消失 。 生 成 
式 对抗 网 络 的 一 个 改进 是 Wasserstein 生 成 式 对 抗 网 络 (Wasserstein 
generative adversarial network, WGAN) ， 它 使 用 Wasserstein 距 离 度 量 
而 不 是 Jensen-Shannon 散 度 (Jensen-Shannon divergence, JSD) 。 生 成 
式 对 抗 网 络 的 另 一 个 改进 是 使 用 最 小 二 乘 生成 式 对 抗 网 络 (least 
squares generative adversarial network，LSGAN) ， 它 的 判别 模型 采用 
最 小 平方 损失 函数 (least squares loss function) 。 关 于 更 多 它们 之 前 的 
区 别 ， 读 者 可 参考 Sebastian Nowozin ` Botond Cseke 和 Ryota Tomioka 的 


论文 《f-GAN: Training Generative Neural Samplers using Variational 


Divergence Minimization) [6] 。 
13.5 小结 


本 章 讲解 了 2017 年 初 最 令 学 术 界 惊喜 的 进展 一 生成 式 对 抗 网 
络 ， 包 括 它 的 原理 、 目 前 的 应 用 以 及 多 个 变种 ， 并 且 以 AC-GAN 作 为 
例子 使 用 TensorFlow 进 行 了 实现 ， 在 MNIST 上 训练 可 以 看 到 不 错 的 效 
果 。 生 成 式 对 抗 网 络 的 改进 主要 有 两 个 方向 ;一 -是 度量 距离 的 算法 
二 是 采用 不 同 的 损失 醒 数 。 


[1] https://arxiv.org/abs/1406.2661 


[2] ”本 图 出 自 Augustus Odena ` Christopher Olah 和 Jonathon Shlens 的 论 
X «Conditional Image Synthesis with Auxiliary Classifier GANs) : 


https://arxiv.org/pdf/1610.09585.pdf 。 


[3] “本 图 出 目 Ian J. Goodfellow ` Jean Pouget-Abadie、Mehdi Mirza ` 
Bing Xu ` David Warde-Farley ` Sherjil Ozair ` Aaron Courville 和 Yoshua 
Bengio 的 论文 《Generative Adversarial Networks) : 
https://arxiv.org/abs/1406.2661 ° 


[4] ”本 市 代码 参考 


https://github.com/fchollet/keras/blob/master/examples/mnist_acgan.py ° 
[5]  https://arxiv.org/abs/1610.09585 


[6] https://arxiv.org/abs/1606.00709 


第 三 篇 ”提高 篇 


终于 学 完 基 础 篇 和 实战 篇 了 ， 相 信 读 者 已 经 掌握 了 移 阅 读 论 文 了 
解 原 理 ， 然 后 复 现 模型 、 调 整 模 型 ， 最 后 用 自己 的 数据 训练 模型 的 一 
整套 方法 。 下 面 我 们 进入 提高 篇 ， 提 高 篇 主要 着 力 于 在 训练 集 数 据 量 
WA ` MARURK (也 就 是 参数 极 多 ) 的 情况 下 ， 我 们 应 该 采用 什 
么 样 的 分 布 式 架 构 设 计 ， 以 及 如 何 配合 Kubernetes、Spark 等 工具 来 做 
训练 。 


除 此 之 外 ， 还 介绍 几 个 TensorFlow 非 常 有 潜力 的 新 特性 ， 如 线性 
代数 编译 框 句 XLA、 调 斌 工具 Debugger、TensorFlow 在 移动 绒 上 的 应 
用 、 生 产 环境 工具 Serving、 动 态 计算 图 工具 Flod 等 。 最 后 介绍 一 些 机 
名 学 习 的 评测 体系 。 


TensorFlow 本 和 号 是 一 把 非常 好 用 的 锤子 ， 基 础 篇 介绍 了 锤子 的 结 
构 ， 实 战 篇 我 们 学 会 了 用 锤子 硬 核 桃 的 动作 ， 如 果 砸 的 进度 非常 慢 怎 
么 办 ? 用 分 布 式 并 行 ， 配 合 分 布 式 集群 的 管理 Kubernetes。 如 果 核 桃 
特别 多 (训练 数据 非常 多 ) 得 无 法 存储 怎么 办 ? 用 Spark 作 为 访问 分 布 
式 文件 系统 上 数据 的 方式 。 如 何 优化 计算 图 本 寻 呢 ? 用 XLA 框 架 。 古 
得 不 对 怎么 调试 呢 ? 用 Debugger。 如 果 在 手掌 上 (资源 有 限 的 移动 
端 ) ABOVE AI? 有 一 天 要 登台 表演 砸 核桃 ， 是 不 是 应 该 多 准备 几 
个 砸 的 姿势 (生产 环境 工具 Serving) ? 砸 得 好 不 好 如 何 来 评价 (机 器 
学 习 的 评测 体系 ) 呢 ? 


相信 通过 对 这 些 内 容 的 学 习 ， 读 者 会 对 TensorFlow 框 架 的 各 个 方 
面 有 更 深入 的 了 解 。 让 我 们 快 开始 吧 ， 我 曾 用 这 篇 中 的 知识 面试 过 很 
多 人 ， 学 懂 这 些 知 识 可 能 有 机 会 “秒杀 ”面试 官 。 


第 14 章 分布 式 TensorFlow 


TensorFlow 的 一 大 亮点 就 是 支持 分 布 式 计算 。 分 布 式 TensorFlow 是 
由 高 性 能 的 gRPC 库 作为 底层 技术 来 文 持 的 。 本 章 我 们 就 来 学 习 分 布 式 
TensorFlow 所 支持 的 架构 和 适用 场景 。 


本 章 前 3 闻 主 要 参考 T Martín Abadi ` Ashish Agarwal 和 Paul Barham 
等 的 论文 《TensorFlow: Large-Scale Machine Learning on Heterogeneous 


Distributed Systems) H o 


14.1 分 布 式 原理 


自 完 ， 我 们 介绍 TensorFlow 的 分 布 式 原理 。TensorFlow 的 分 布 式 集 
群 由 多 个 服务 器 进程 和 客户 端 进程 组 成 。TensorFlow 有 几 种 部 署 方 式 ， 
如 单机 多 卡 和 分 布 式 (多 机 多 卡 ) ,一般 我 们 把 多 机 多 卡 的 部 团 称 大 
TensorFlow 的 分 布 式 。 本 广 先 介绍 单机 多 卡 和 分 布 式 的 区 别 ， 随 后 介绍 
分 布 式 的 部 署 方式 。 


14.1.1 单机 多 卡 和 分 布 式 


单机 多 卡 是 指 单 台 服务 器 有 多 块 GPU。 假 设 一 台 机 器 上 有 4 块 
GPU， 单 机 多 GPU 的 训练 过 程 如 下 。 


(1) 在 单机 单 GPU 的 训练 中 ， 数 据 是 一 个 批 次 (batch) 一 个 批 次 
地 训练 的 。 在 单机 多 GPU 中 ， 一 次 处 理 4 个 批 次 的 数据 ， 每 个 GPU 处 理 


一 个 批 次 的 数据 计算 。 


(2) 变量 ， 也 就 是 参数 ， 保 存在 CPU 上 ， 数 据 由 CPU 分 发 给 4 个 
GPU， 在 GPU 上 完成 计算 ， 得 到 每 个 批 次 要 更 新 的 梯度 。 


(3) 在 CPU 上 收集 完 4 个 GPU 上 要 更 新 的 梯度 ， 计 算 一 下 平均 梯 
度 ， 然 后 更 新 参数 。 


(4) 继续 第 2 步 和 第 3 步 ， 循 环 这 个 过 程 。 


这 个 过 程 的 处 理 速度 取决 于 最 慢 的 那个 GPU 的 速度 。 如 有 果 4 个 GPU 
的 处 理 速度 差不多 ， 处 理 速度 束 相 当 于 单机 单 GPU 的 速度 的 4 倍 减 去 数 
据 在 CPU 和 GPU 之 间 传 输 的 开销 。 但 是 ， 这 样 进行 并 行 训练 ， 运 算 能 
力 还 是 限制 在 单机 上 。 


分 布 式 是 指 训练 在 多 个 工作 市 点 (worker) 上 上。 工作 市 点 是 指 实现 
计算 的 一 个 单元 ， 如 果 计 算 服 务 器 是 单 卡 ， 一 般 束 古 指 这 台 服 务 器; 
如 有 条 计算 服务 喜 是 多 卡 ， 还 可 以 根据 多 个 GPU 划分 多 个 工作 点 。 当 
数据 量 大 到 超过 一 台 机 响 的 处 理 能 力 时 ， 必 须 使 用 分 布 式 。 


分 布 式 TensorFlow 底 层 的 通信 和 是 gRPC (google remote procedure 
call) 。gRPC 是 谷歌 开源 的 一 个 高 性 能 、 跨 语言 的 RPC 框 架 。RPC 协 
议 ， 即 远程 过 程 调 用 协议 ， 是 指 通过 网 络 从 远程 计算 机 程序 上 请 求 服 
务 。 也 就 是 说 ， 假 设 你 在 本 机 上 执行 一 段 代码 num=add(a, b)， 它 被 调 
用 后 ， 得 到 一 个 返回 结果 ， 你 感觉 这 段 代码 是 在 本 机 上 执行 的 ， 但 实 
示 情 况 是 ， 本 机 上 的 add 方 法 是 将 参数 打包 发 送 给 远程 服务 硕 ， 由 远程 
服务 句 运 行 add 方 法 ， 将 返回 的 结果 再 打包 返回 给 本 机 客户 端的 。 


aA 


14.1.2 “分布 式 部 署 方式 

在 分 布 式 运行 的 情况 下 ， 我 们 需要 有 多 个 计算 单元 (LE 
点 ) ， 后 端的 服务 器 可 以 部 署 为 单 工作 节点 和 多 工作 节点 。 
1. 单 工作 节点 部 署 


单 工作 节点 部 署 是 在 每 台 服 务 器 上 运行 一 个 工作 节点 ， 假 设 服务 
器 有 4 个 GPU， 一 个 工作 币 点 可 以 访问 4 块 GPU 卡 ， 这 时 需要 在 代码 中 
使 用 tf.device() 指 定 运行 探 作 的 设备 。 


单 工作 市 点 部 署 的 优势 是 在 单机 多 个 GPU 间 需要 通信 的 情况 下 ， 
效率 更 高 。 例 如 ， 可 以 实现 RNN 的 模型 并 行 。 单 工作 节点 部 嗜 的 劣势 
是 需要 手动 在 代码 中 指定 设备 。 


2. 多 工作 节点 部 署 


多 工作 六 点 是 指 一 台 服 务 絮 上 可 以 运行 多 个 工作 让 点 。 部 署 有 以 
下 两 种 方法 。 


(1) 设置 CUDA _VISIBLE_DEVICES 环 境 变量 ， 限 制 各 个 工作 节 
点 只 可 见 一 个 GPU， 启 动 进程 时 添加 环境 变量 即 可 。 例 如 ， 每 个 工作 
能 访问 一 个 GPU， 在 代码 中 不 需要 额外 指定 中。 示例 如 下 : 


CUDA_VISIBLE_DEVICES='' python ./distributed_supervisor.py -- 
ps_hosts= 

127.0.0.1:2222,127.0.0.1:2223 -- 
worker_hosts=127.0.0.1:2224,127.0.0.1:2225 

--job_name=ps --task_index=0 

CUDA_VISIBLE_DEVICES='' python ./distributed_supervisor.py 
--ps_hosts=127.0.0.1:2222,127.0.0.1:2223 -- 
worker_hosts=127.0.0.1:2224, 

127.0.0.1:2225 --job_name=ps --task_index=1 
CUDA_VISIBLE_DEVICES='0' python ./distributed_supervisor.py 


--ps_hosts=127.0.0.1:2222,127.0.0.1:2223 -- 
worker_hosts=127.0.0.1:2224, 

127.0.0.1:2225 --job_name=worker --task_index=0 
CUDA_VISIBLE_DEVICES='1' python ./distributed_supervisor.py 
--ps_hosts=127.0.0.1:2222,127.0.0.1:2223 -- 
worker_hosts=127.0.0.1:2224, 

127.0.0.1:2225 --job_name=worker --task_index=1 


(2) 使 用 ttdevice0 指 定 使 用 特定 的 GPU 。 


多 工作 节点 部 署 的 优势 是 代码 简单 ， 提 高 GPU 使 用 率 。 多 工作 区 
点 部 嗜 的 劣势 是 工作 节点 间 如 有 果 需 要 通信 就 不 能 利用 本 地 GPU 通信 的 
优势 ， 而 且 部 署 时 需要 部 署 多 个 工作 市 点 。 


14.2 分布 式 架构 BI 


了 解 了 分 布 式 的 原理 之 后 ， 我 们 来 看 一 下 分 布 式 架构 的 组 成 。 分 
布 式 架构 主要 由 客户 并 (client) 和 服务 端 (server) 组 成 ， 服 务 端 又 包 
MEPA (master) MTIPA (worker) 两 者 组 成 。 我 们 需要 关注 客 
户 端 、 主 节点 和 工作 节点 这 三 者 间 的 关系 和 它们 的 交互 过 程 。 


14.21 客户 端 、 主 节点 和 工作 节点 的 关系 


简单 地 来 说 ， 在 TensorFlow 中 ， 客 户 站 通过 会 话 来 联系 主 下 点 ， 实 
际 的 工作 交 由 工作 节点 实现 。 每 个 工作 节点 占据 一 台 设 备 (是 
TensorFlow 具 体 计算 的 硬件 抽象 ， 即 CPU 或 GPU) 。 在 单机 模式 下 ， 客 
户 端 、 主 斑点 和 工作 节点 都 在 同一 台 服 务 袁 上 ;， 在 分 布 式 模式 下 ， 它 
(TAT MFA AY ARS ae ° 


图 14-1 展 示 了 这 三 者 之 间 的 关系 。 


工作 节点 
/job:worker/task:0 

工作 节点 

/job:ps/task:0 


图 14-1 M 


1. 客户 端 


客户 端 用 于 建立 TensorFlow 计 算 图 ， 并 建立 与 集群 进行 交互 的 会 话 
层 。 因 此 ， 代 码 中 只 要 包含 Session0) 束 是 客户 疹 。 一 个 客户 端 可 以 同时 
与 多 个 服务 端 相连 ， 同 时 一 个 服务 端 也 可 以 与 多 个 客户 端 相连 。 


2. 服务 端 


服务 端 是 一 个 运行 了 tt.train.Server 实 例 的 进程 ， 是 TensorFlow 执 行 
任务 的 集群 (cluster) 的 一 部 分 ， 并 有 主 节点 服务 (Master service, tH, 
叫 主 节点 ) 和 工作 节点 服务 (Worker service， 也 叫 工 作 节 点 ) 之 分 。 
运行 中 由 一 个 主 世 点 进程 和 数 个 工作 蔬 点 进程 组 成 ， 主 节点 进程 和 工 
作 市 点 进程 之 间 通 过 接口 通信 。 单 机 多 卡 和 分 布 式 都 是 这 种 结构 ， 
此 只 需要 更 改 它们 之 间 通 信 的 接口 就 可 以 实现 单机 多 卡 和 分 布 式 的 切 
换 。 


3. 主 节点 服务 


主 节 点 服务 实现 了 tensorflow::Session 接 口 ， 通 过 RPC 服 务 程序 来 远 
程 连 接 工 作 世 点， 与 工作 和 点 的 服务 进程 中 的 工作 任务 进行 通信 。 在 


TensorFlow 服 务 端 中 ， 一 般 是 task_index 为 0 的 作业 (job) ° 
4. 工作 节点 服务 


工作 节点 服务 实现 了 worker_service.proto 接 口 ， 使 用 本 地 设备 对 部 
分 图 进行 计算 。 在 TensorFlow 服 务 端 中 ， 所 有 工作 方 点 都 包含 工作 厄 点 
的 服务 逻辑 。 每 个 工作 市 点 负责 管理 一 个 或 者 多 个 设备 。 工 作 节 点 也 
可 以 是 本 地 不 同 端口 的 不 同 进程 ， 或 者 多 人 台 服 务 器 上 的 多 个 进程 。14.6 
节 中 会 用 本 地 不 同 问 口 的 两 个 进程 来 模拟 两 个 工作 蔬 点 的 部 署 。 


在 运行 TensorFlow 的 分 布 式 时 ， 我 们 首先 需要 创建 一 个 TensorFlow 
集群 (cluster) 对 象 。 和 集群 是 TensorFlow 分 布 式 执行 的 任务 集 ， 由 一 个 
或 者 多 个 作业 (job) 组 成 ， 而 每 个 作业 又 由 一 个 或 多 个 具有 相同 目的 
的 任务 (task) 组 成 。 每 个 任务 一 般 由 一 个 工作 进程 来 执行 。 由 此 可 
知 ， 作 业 是 任务 的 集合 ， 集 群 是 作业 的 集合 。 


在 分 布 式 机 器 学 习 框 架 (包括 TensorFlow 在 内 ) 中 ， 一 般 把 作业 划 
分 为 参数 作业 (parameter job) 和 工作 节点 作业 (worker job) 。 参 数 
作业 运行 的 服务 器 称 为 参数 服务 器 (parameter server, PS) ， 负 责 管 
理 参数 的 存储 和 更 新 ;工作 记 点 作业 负责 管理 无 状态 且 主 要 从 事 计 算 
的 任务 ， 如 运行 操作 。 


当 模型 越 来 越 大 ， 模 型 的 参数 越 来 越 多 ， 多 到 一 人 台 机 邦 的 性 能 不 
够 完成 对 模型 参数 的 更 新 的 时 候 ， 殊 需要 把 参数 分 开放 到 不 同 的 机 咽 
去 存储 和 更 新 。 参 数 服务 器 可 以 是 由 多 台 机 器 组 成 的 集群 ， 这 就 有 点 
儿 关 似 于 分 布 式 存储 架构 ， 涉 及 数据 的 同步 、 一 致 性 等 ， 参 数 可 以 存 
储 为 键 值 (key-value) 的 形式 ， 或 者 理解 为 一 个 分 布 式 的 键 值 内 存 数 
据 库 ， 然 后 再 加 上 一 些 参数 更 新 的 操作 。 5 


因此 ， 参 数 的 存储 和 更 新 是 在 参数 作业 中 进行 的 ， 模 型 的 计算 是 
在 工作 节点 作业 中 进行 的 。TensorFlow 的 分 布 式 实现 作业 间 的 数据 传 
输 ， 也 残 是 参数 作业 到 工作 节点 作业 的 前 加 传播 ， 以 及 工作 万 点 作业 
到 参数 作业 的 反 回 传播 。 


任务 相当 于 是 一 个 特定 的 TensorFlow 服 务 器 的 独立 进程 ， 该 进程 属 
于 特定 的 作业 并 在 作业 中 拥有 对 应 的 序号 。 在 大 多 数 情况 下 ， 一 个 任 
务 对 应 一 个 工作 让 点 。 


图 14-2 展 示 了 我 对 集群 内 各 种 关系 的 理解 。 


图 14-2 


14.2.2 ”客户 端 、 主 节点 和 工作 节点 的 交互 过 程 


任务 整体 执行 流程 如 图 14-3 所 示 ， 左 边 是 单机 多 卡 的 交互 ， 右 边 是 
分 布 式 的 交互 。 


运行 


执行 子 图 
工作 节点 进程 1 | | 工作 节点 进程 2 | | 工作 节点 进程 3 
Ma | (GPUs) ee) | (GPU) ee) 
We) wae We 


图 14-3 [6] 


14.3 分布 式 模式 


知道 了 分 布 式 的 架构 以 及 客户 端 、 主 节点 和 工作 节点 的 关系 ， 我 
们 来 看 看 分 布 式 的 具体 运行 模式 是 什么 。 在 训练 一 个 模型 的 过 程 中 ， 
有 哪些 部 分 可 以 分 开 ， 放 在 不 同 的 机 器 上 运行 呢 ? 这 里 就 介绍 两 种 模 
式 : 数据 并 行 和 模型 并 行 。 
14.3.1 ”数据 并 行 

数据 并 行 的 原理 很 简单 ， 如 图 14-4 所 示 。 其 中 CPU 主要 负责 梯度 平 
均 和 参数 更 新 ， 而 GPU1 和 GPU2 主 要 负责 训练 模型 副本 (model 
replica) 。 这 里 称 作 “ 模 型 副本 ”是 因为 它们 都 是 基于 训练 样 例 的 子 集训 
练 得 到 的 ， 模 型 之 间 具 有 一 定 的 独立 性 。 
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具体 的 训练 步骤 如 下 。 7 
(1) 在 GPU1 和 GPU2 上 分 别 定义 模型 网 络 结构 。 


(2) 对 于 单个 GPU， 分 别 从 数据 管道 读 取 不 同 的 数据 块 ， 然 后 进 
行 前 向 传播 ， 计 算出 损失 ， 再 计算 当前 变量 的 梯度 。 


(3) 把 所 有 GPU 输出 的 梯度 数据 转移 到 CPU 上 ， 先 进行 梯度 求 平 
均 操 作 ， 然 后 进行 模型 变量 的 更 新 。 


(4) 重复 第 1 步 至 第 3 步 ， 直 到 模型 变量 收敛 为 止 。 


数据 并 行 的 目的 主要 是 提高 SGD 的 效率 。 例 如 ， 假 如 每 次 SGD 的 
mini-batch 大 小 是 1000 个 样本 ， 那 么 如 果 切 成 10 份 ， 每 份 100 个 ， 然 后 将 
模型 复制 10 份 ， 就 可 以 在 10 个 模型 上 同时 计算 。 


但 是 ， 因 为 10 个 模型 的 计算 速度 可 能 是 不 一 致 的 ， 有 的 快 有 的 
慢 ， 那 么 在 CPU 更 新 变量 的 时 候 ， 古 应 该 等 竺 这 一 mini-batch 全 部 计算 
完成 ， 然 后 求 和 取 和 平均 来 更 新 呢 ， 还 是 让 一 部 分 先 计 算 完 的 就 先 更 
新 ， 后 计算 完 的 将 前 面 的 覆盖 呢 ? 这 就 引出 了 同步 更 新 和 腊 步 更 新 的 


问题 。 
14.3.2 ”同步 更 新 和 异步 更 新 


分 布 式 随机 梯度 下 降 法 是 指 ， 模 型 参数 可 以 分 布 式 地 存储 在 不 同 
的 参数 服务 船上 ， 工 作 节 总 可 以 并 行 地 训练 数据 并 且 能 够 和 参数 服务 
器 通信 获取 模型 参数 。 更 新 参数 也 分 为 同步 和 异步 两 种 方式 ， 即 为 异 
步 随机 梯度 下 降 法 (Async-SGD) 和 同步 随机 梯度 下 降 法 (Sync- 
SGD) ， 如 图 14-5 所 示 。 


异步 数据 并 行 


图 14-5 [8] 


同步 随机 梯度 下 降 法 (也 称 同步 更 新 、 同 步 训练 ， 的 含义 古 在 进 
行 训 练 时 ， 每 个 市 点 上 的 工作 任务 需要 读 入 共享 参数 ， 执 行 并 行 的 梯 
度 计算 ,同步 需要 等 待 所 有 工作 节点 把 局 部 的 梯度 算 好 ， 然 后 将 所 有 
共 至 参数 进行 合并 、 累 加 ， 表 一 次 性 更 新 到 模型 的 参数 ， 下 一 个 批 次 
中 ， 所 有 工作 市 点 拿 到 模型 更 新 后 的 参数 再 进行 训练 。 


这 种 方案 的 优势 是 ， 每 个 训练 批 次 都 考虑 了 所 有 工作 节点 的 训练 
情况 ， 损 失 下 降 比 较 稳定 ， 和 劣势 是， 性 能 瓶 贷 在 于 最 慢 的 工作 市 扩 
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异步 随机 梯度 下 降 法 (也 称 异步 更 新 、 异 步 训 练 ， 的 含义 是 每 个 
工作 节点 上 的 任务 独立 计算 局 部 梯度 ， 并 异步 更 新 到 模型 的 参数 中 ， 
不 需要 执行 协调 和 等 待 操作 。 


这 种 方案 的 优势 优势 是 ， 性 能 不 存在 瓶 贷 ， 劣 势 吓 ， 每 个 工作 市 
扩 计 算 的 梯度 值 发 送 回 参数 服务 器 会 有 参数 更 新 的 冲突 ， 一 定 程 度 上 
会 影响 算法 的 收敛 速度 ， 在 损失 下 降 过 程 中 抖动 较 大 。 


同步 更 新 和 异步 更 新 如 何 选 择 ? 有 没有 优化 方式 呢 ? 


同步 更 新 和 异步 更 新 的 实现 区 别 主 要 在 于 更 新 参数 服务 占 的 参数 
的 策略 。 在 数据 量 小 ， 各 个 节点 的 计算 能 力 比较 均衡 的 情况 下 ， 推 荐 
使 用 同步 模式 ， 在 数据 量 很 大 ， 各 个 机 器 的 计算 性 能 参差 不 齐 的 情况 
下 ， 推 荐 使 用 异步 模式 。 具 体 使 用 哪 一 种 还 可 以 看 实验 结 采 ， 一 般 数 
据 量 足够 大 的 情况 下 异步 更 新 效果 会 更 好 。 


为 了 解决 有 些 工作 方 点 计算 比较 慢 的 问题 ， 可 以 使 用 多 一 些 工作 
节点 。 例 如 ， 让 工作 节点 总 数 变 为 n +n x5%，n 为 集群 工作 节点 数 。 异 
步 更 新 可 以 设 定 为 在 接受 到 mn 个 工作 和 点 的 参数 后 ， 可 以 直接 更 新 参数 
服务 器 上 的 模型 参数 ， 进 入 下 一 个 批 次 的 模型 训练 。 计 算 比 较 慢 的 市 
点 上 训练 出 来 的 参数 直接 被 丢弃 。 我 们 称 这 种 方法 为 带 备 份 的 Sync- 
SGD (Sync-SGD with backup) 。 


在 Jianmin Chen ` Xinghao Pan ` Rajat Monga ` Samy Bengio 和 Rafal 
Jozefowicz 的 论文 《Revisiting Distributed Synchronous SGD》 中 ， 作 者 
基于 ImageNet 数 据 集 用 TensorFlow 的 Async-SGD、Sync-SGD、 带 备 


份 的 Sync-<SGD 模 式 做 了 1000 种 图 请 的 分 类 训练 。 实 难 环 境 分 别 为 50、 


100 和 200 个 工作 节点 ， 运 行 在 NVIDIA K40 GPU 上。 图 14-6 展 示 的 是 
50、100 和 200 个 工作 节点 ， 用 上 述 3 种 模型 的 训练 结果 。 


— async50 —— asyncl00 
sync50 sync100 
sync50+2 sync100+5 


—— async200 
Sync200 
Sync200+10 
20 22 24 26 28 30 32 34 
hours 


图 14-6 [P] 


可 以 看 出 增加 两 个 备份 所 点 ， 市 备份 的 Sync-SGD 模 型 可 以 快速 提 
升 模 型 训练 速度 。 从 图 14-6 所 示 的 50 个 工作 节点 的 情况 可 以 看 出 ， 
Sync-SGD 模 型 比 Async-SGD 模 型 大 概 提 升 了 25% 的 训练 速度 ， 以 及 
0.48% 的 准确 度 。 


而 且 随 着 工作 节点 数目 的 增多 ， 训 练 时 间 会 极 大 缩短 。 如 图 14-7 所 
示 ， 采 用 Async-SGD 算 法 ， 分 别 用 25、50、100 和 200 个 节点 ，200 个 节 


点 的 训练 时 间 是 采用 25 个 节点 的 训练 时 间 的 18， 说 明 分 布 式 的 
TensorFlow 能 够 提升 大 规模 训练 的 效率 。 


图 14-7 [10] 


理解 了 参数 更 新 的 机 制 ， 还 有 很 重要 的 一 步 ， 训 练 时 数据 是 如 何 
分 发 到 工作 节点 上 的 呢 ? 
同步 更 新 与 异步 更 新 有 图 内 模式 (in-graph pattern) 和 图 间 模 式 
(between-graph pattern) 两 种 模式 ， 是 独立 于 图 内 (in-graph) 和 图 间 
(between-graph) 的 概念 ， 也 就 是 说 无 论 是 图 内 还 是 图 间 都 可 以 实现 
同步 更 新 和 异步 更 新 ， 只 是 实现 代码 上 会 有 些 差 异 。 


图 内 复制 (in-graph replication) 是 指 所 有 操作 (operation) 都 在 
同一 个 图 中 ， 用 一 个 客户 端 来 生成 图 ， 然 后 把 所 有 操作 分 配 到 集群 的 
所 有 参数 服务 器 和 工作 节点 上 。 图 内 复制 和 单机 多 卡 有 点 类 似 ， 是 扩 
展 到 了 多 机 多 卡 ， 但 是 数据 分 发 还 是 在 客户 端 一 个 和 点 上 。 这 种 方式 


的 优势 是 计算 节点 只 需要 调用 join0 画 数 等 得 任务 ， 客 户 端 随时 提交 数 
据 束 可 以 训练 。 但 务 势 古训 练 数据 的 分 发 在 一 个 让 点 上 ， 要 分 发 给 不 
同 的 工作 市 点 ， 严 重 影响 并 发 训练 速度 。 因 此 ， 在 数据 量 很 大 的 情况 
下 ,不 推荐 使 用 这 种 模式 。 


图 间 复 制 (between-graph replication) 与 图 内 复制 对 应 ， 是 指 每 一 

个 工作 节点 创建 一 个 图 ， 训 练 的 参数 保存 在 参数 服务 器 ， 数 据 不 用 分 
发 ， 各 个 工作 节点 独立 计算 ， 计算 完成 后 ， 把 要 更 新 的 参数 告诉 参数 
服务 器 ， 参 数 服 务 器 来 更 新 参数 。 这 种 模式 的 优势 是 不 需要 数据 分 

发 ， 各 个 工作 节点 都 会 创建 图 和 读 取 数据 进行 训练 。 劣 势 是 工作 节点 
既是 图 的 创建 者 又 是 计算 任务 的 执行 者 ， 如 果 某 个 工作 节点 宕 机 会 影 
响 集 群 的 工作 。 这 种 模式 是 在 数据 量 在 TB 级 的 时 候 ， 并 发 性 能 很 高 。 
因此 ， 大 数据 相关 的 深度 学 习 还 是 推荐 使 用 图 间 模 式 。 在 14.6 节 的 对 
MNIST 进 行 分 布 式 训练 的 例子 中 ， 我 们 就 采 用 了 这 种 方式 。 


14.3.3 ”模型 并 行 


还 可 以 对 模型 进行 切 分 ， 让 模型 的 不 同 部 分 执行 在 不 同 的 设备 
上 ， 这 样 一 个 批 次 样本 可 以 在 不 同 的 设备 上 同时 执行 。 为 了 充分 利用 
同一 人 台 设 备 的 计算 能 力 ，TensorFlow 会 尽量 让 相 邻 的 计算 在 同一 台 设 备 
上 完成 来 节省 网 络 开销 。 如 岁 14-8 所 示 ， 这 是 一 个 LSTM 模 型 ， 展 示 一 
个 批 次 的 样本 在 设备 1、 设 备 2、 设 备 3 同 时 训练 ， 分 别 执行 模型 的 不 同 
部 分 ， 分 别 训练 出 P1、P2、P3 三 个 不 同 的 参数 。 
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F 


图 14-8 HH 


本 区 的 模型 并 行 和 数据 并 行 ， 说 明 在 TensorFlow 中 ， 计 算 可 以 分 
离 ， 参 数 也 可 以 分 离 。 可 以 在 每 个 设备 上 分 配 计 算 蔬 点， 然后 让 其 对 
应 的 参数 也 在 该 设备 上 ， 让 计算 和 参数 放 在 一 起 。 


14.4 ”分 布 式 API I! 


创建 集群 的 方法 是 为 每 一 个 任务 (task) 启动 一 个 服务 (工作 市 点 
服务 或 者 主 节 点 服务 ) 。 这 些 任务 可 以 分 布 在 不 同 的 机 器 上 ， 也 可 以 
同一 合 机 天 局 动 多 个 任务 ， 使 用 不 同 的 GPU 来 运行 。 每 个 任务 会 完成 
以 下 工作 。 


(1) 创建 一 个 tf.train.ClusterSpec， 用 于 对 集群 中 的 所 有 任务 进行 
拉 述 ， 该 换 述 内 容 对 所 有 任务 应 该 是 相同 的 。 


(2) 创建 一 个 tf.train.Server， 用 于 创建 一 个 服务 ， 并 运行 相应 作 
业 上 的 计算 任务 。 


TensorFlow 的 分 布 式 开发 API 主 要 包括 以 下 几 个 。 


(1) tf.train.ClusterSpec({"ps": ps_hosts, "worker": worker_hosts}) ° 
创建 TensorFlow 集 群 描述 信息 ， 其 中 ps 和 worker 为 作业 名 称 ，ps_hosts 
和 worker_hosts 为 该 作业 的 任务 所 在 节点 的 地 址 信息 。 表 14-1 中 个 给 出 
了 两 个 示例 ， paeas i oa R 
射 ， 该 映射 关系 中 的 任务 是 通过 IP 地 址 和 端口 号 表示 的 。 


表 14-1 


tf.train.ClusterSpec 结 构 可 用 任务 


tf.train.ClusterSpec( { "local": /job:local/task:0 
["localhost:2222", "localhost:2223" ] } ) /job:local/task:1 


tf.train.ClusterSpec ( { 
"worker": [ 
"worker0.example.com:2222", 


/job:worker/task:0 
/job:worker/task:1 
/job:worker/task:2 
/job:ps/task:0 
/job:ps/task:1 


"workerl.example.com:2222", 
"worker2.example.com:2222" 
], 
"ps": [ 
"ps0.example.com:2222", 
"ps1.example.com:2222" 
] }) 


(2) tf.train.Server(cluster, job_name, task_index)。 创 建 一 个 服务 
( 主 节点 服务 或 者 工作 节点 服务 ) ， 用 于 运行 相应 作业 上 的 计算 任 
务 ， 运 行 的 任务 在 task_index 指 定 的 机 恬 上 局 动 。 例 如 ， 在 本 地 的 2222 
和 2223 两 个 端口 上 配置 不 同 的 任务 : 


# EERO: 

cluster = tf.train.ClusterSpec({"local": ["localhost:2222", 
"localhost :2223"]}) 

server = tf.train.Server(cluster, job_name="local", task_index=0) 


# 在 任务 1: 

cluster = tf.train.ClusterSpec({"local": ["localhost:2222", 
"localhost :2223"]}) 

server = tf.train.Server(cluster, job _name="local", task_index=1) 


但 是 ， 这 种 做 法 还 需要 手动 配置 节点 ， 无 法 实现 动态 的 扩容 或 缩 
容 。 当 集群 规模 比较 大 时 ， 就 需要 使 用 自动 化 的 管理 节点 、 监 控 届 后 
的 工具 ， 如 集群 管理 工具 Kubernetes (第 17 章 中 会 讲解 TensorFlow 在 
Kubernetes 上 的 部 署 和 应 用 ) ° 


(3) tf.device(device_name_or function)。 设 定 在 指定 的 设备 上 执 
行 张 量 运算 ， 指 定 代 码 运行 在 CPU 或 GPU 上 “。 示 例如 下 : 


# 指 定 在 task0 所 在 的 机 器 上 执行 Tensor 的 操作 运算 
with tf.device("/job:ps/task:0"): 


weights_1 = tf.Variable(...) 
biases 1 = tf.Variable(...) 


14.5 分布 式 训练 代码 框架 


下 面 展 示 将 如 何 创建 一 个 TensorFlow 服 务 器 集群 ， 以 及 如 何在 该 集 
群 中 分 布 式 计算 一 个 数据 流 图 。TensorFlow 分 布 式 集群 的 所 有 节点 执行 
的 代码 都 是 相同 的 。 分 布 式 任务 代码 具有 固定 的 结构 : 


# 第 1 步 : 命令 行 参数 解析 ， 获 取 集群 的 信息 ps_hosts 和 worker_hosts， 

# 以 及 当前 节点 的 角色 信息 job_name 和 task_index。 例 如 : 
tf.app.flags.DEFINE_string("ps_hosts", "", "Comma-separated list of 
hostname:port pairs") 

tf.app.flags.DEFINE_string("worker_hosts", "", "Comma-separated 
list of hostname:port 


pairs") 
tf.app.flags.DEFINE_string("job_name", "", "One of 'ps', 'worker'") 
tf.app.flags.DEFINE_integer("task_index", ©, "Index of task within 
the job") 
FLAGS = tf.app.flags.FLAGS 
ps_hosts = FLAGS.ps_hosts.split(",") 
worker_hosts = FLAGS.worker_hosts(",") 


# 第 2 步 : 创建 当前 任务 节点 的 服务 器 

cluster = tf.train.ClusterSpec({"ps": ps_hosts, "worker": 
worker_hosts}) 

server = tf.train.Server(cluster, job _name=FLAGS.job_name, 
task_index=FLAGS.task_index) 


# 第 3 步 : 如 果 当 前 节点 是 参数 服务 器 ， 则 调用 server ,join( ) 无 休止 等 待 ， 如 细 
节点 ， 则 执行 第 4 步 
if FLAGS.job_name == "ps": 

server .join() 


# 第 4 步 : 构建 要 训练 的 模型 ， 构 建 计 算 图 
elif FLAGS.job_name == "worker": 
# build tensorflow graph model 


# 第 5 步 : 创建 tf.train,Supervisor 来 管理 模型 的 训练 过 程 
# 创建 一 个 supervisor 来 监督 训练 过 程 
sv = tf.train.Supervisor(is_chief=(FLAGS.task_index == 0), 
logdir="/tmp/train_logs") 
# supervisor 人 负责 会 话 初 始 化 和 从 检查 点 恢复 模型 
sess = sSv.prepare_or_wait_for_session(server.target ) 
# 开始 循环 ， 直 到 supervisor 停 止 
while not sv.should_stop() 

# 训练 模型 


现在 我 们 就 根据 本 节 所 讲 的 TensorFlow 分 布 式 训练 代码 框架 ， 来 看 
看 如 何 对 MNIST 进 行 分 布 式 训练 。 对 于 上 述 代 码 框 架 ， 我 们 要 编写 的 
主要 有 两 部 分 :构建 TensorFlow 图 模型 的 代码 ， 以 及 每 一 步 执行 训练 的 
代码 。 


14.6 “分 布 式 最 佳 实践 al 


本 节 采 用 图 14-9 所 示 的 结构 对 MNIST 数 据 集 进行 分 布 式 训练 。 我 
们 在 本 机 上 开设 3 个 端口 作为 分 布 式 工作 节点 的 部 署 ，2222 端 口 为 参数 
服务 器 ，2223 端 口 为 工作 节点 0，2224 端 口 为 工作 节点 1。 参 数 服务 器 
执行 参数 更 新 任务 ， 工 作 节点 0 和 工作 节点 1 执行 图 模型 训练 计算 任 


务 。 


BBUF at 
/job:ps/task:0 
localhost:2222 


工作 节点 工作 节点 


/Job:worker/task:0 /Job:worker/task: 1 
localhost:2223 localhost:2224 


图 14-9 


我 们 移 来 运行 代码 ， 看 看 结 末 什么 样 。 开 局 3 个 终端 ， 分 别 运行 : 


python mnist_replica.py --job_name="ps" --task_index=0 
python mnist_replica.py --job_name="worker" --task_index=0 


python mnist_replica.py --job_name="worker" --task_index=1 


在 开启 参数 服务 器 (ps) 的 终端 里 ， 结 果 如 下 : 


job name = ps 

task index = 0 

I tensorflow/core/distributed_runtime/rpc/grpc_channel.cc:200] 
Initialize GrpcChannel 

Cache for job ps -> {0 -> localhost :2222} 

I tensorflow/core/distributed_runtime/rpc/grpc_channel.cc:200] 
Initialize GrpcChannel 

Cache for job worker -> {0 -> localhost:2223, 1 -> localhost:2224} 
I tensorflow/core/distributed_runtime/rpc/grpc_server_lib.cc:217] 
Started server 

with target: grpc://localhost:2222 


然后 该 进程 挂 起 ， 等 竺 工作 节点 服务 中 的 进程 开始 训练 。 


我 们 一 共 进 行 200 次 太 代 ， 工 作 节 点 1 执行 了 169 次 迭代 ， 计 算 输 出 


job name = worker 

task index = 0 

I tensorflow/core/distributed_runtime/rpc/grpc_channel.cc:200] 
Initialize GrpcChannel 

Cache for job ps -> {0 -> localhost:2222} 

I tensorflow/core/distributed_runtime/rpc/grpc_channel.cc:200] 
Initialize GrpcChannel 

Cache for job worker -> {0 -> localhost:2223, 1 -> localhost:2224} 
I tensorflow/core/distributed_runtime/rpc/grpc_server_lib.cc:217] 
Started server 

with target: grpc://localhost : 2223 

Worker 0: Initializing session... 

I tensorflow/core/distributed_runtime/master_session.cc:994] Start 
master session 

0d791a02977e5701 with config: 

device_filters: "/job:ps" 

device_filters: "/job:worker/task:0" 

allow_soft_placement: true 


Worker 0: Session initialization complete. 


Training begins @ 1483516057 .489495 


1483516057 .518419: Worker 0: training step 1 done (global step: 0) 
1483516057.541053: Worker 0: training step 2 done (global step: 1) 
1483516057.569677: Worker 0: training step 3 done (global step: 2) 
1483516057 .584578: Worker 0: training step 4 done (global step: 3) 
1483516057.646970: Worker 0: training step 5 done (global step: 4) 
ae HEE 

1483516059.286596: Worker 0: training step 166 done (global step: 
197) 

1483516059.291600: Worker 0: training step 167 done (global step: 
198) 

1483516059.297347: Worker 0: training step 168 done (global step: 
199) 

1483516059.303738: Worker 0: training step 169 done (global step: 
200) 


Training ends @ 1483516059.303808 
Training elapsed time: 1.814313 s 
After 200 training step(s), validation cross entropy = 1235.56 


THE TS QUT TIARE, SERRATE: 


job name = worker 

task index = 1 

I tensorflow/core/distributed_runtime/rpc/grpc_channel.cc:200] 
Initialize GrpcChannel 

Cache for job ps -> {0 -> localhost :2222} 

I tensorflow/core/distributed_runtime/rpc/grpc_channel.cc:200] 
Initialize GrpcChannel 

Cache for job worker -> {0 -> localhost:2223, 1 -> localhost:2224} 
I tensorflow/core/distributed_runtime/rpc/grpc_server_lib.cc:217] 
Started server 

with target: grpc://localhost:2224 

Worker 1: Waiting for session to be initialized... 

I tensorflow/core/distributed_runtime/master_session.cc:994] Start 
master session 

92e671f3ddiffd05 with config: 

device_filters: "/job:ps" 

device_filters: "/job:worker/task:1" 

allow_soft_placement: true 


Worker 1: Session initialization complete. 

Training begins @ 1483516058 .803010 

1483516058 .832164: Worker 1: training step 1 done (global step: 
121) 

1483516058 .844464: Worker 1: training step 2 done (global step: 
123) 

1483516058.860988: Worker 1: training step 3 done (global step: 


126) 
1483516058.873543: Worker 1: training step 4 done (global step: 


128) 

1483516058.884758: Worker 1: training step 5 done (global step: 
130) 

a HEE 

1483516059 .152332: Worker 1: training step 30 done (global step: 
176) 

1483516059.167606: Worker 1: training step 31 done (global step: 
178) 

1483516059.177215: Worker 1: training step 32 done (global step: 
180) 

1483516059 .301384: Worker 1: training step 33 done (global step: 
182) 

1483516059.309557: Worker 1: training step 34 done (global step: 
202) 


Training ends @ 1483516059.309638 
Training elapsed time: 0.506628 s 
After 200 training step(s), validation cross entropy = 1235.56 


下 面 我 们 一 起 来 看 一 下 如 何 用 代码 实现 在 MNIST 上 进行 分 布 式 训 
练 。 


首先 ， 定 义 一 些 常量 ， 用 于 构建 数据 流 图 : 


flags = tf.app.flags 
flags.DEFINE_string("data_dir", "/tmp/mnist-data", "Directory for 
storing mnist data") 


# 只 下 载 数据 ， 不 做 其 他 操作 
flags.DEFINE_boolean("download_only", False, 
"Only perform downloading of data; Do not 


proceed to " 
"session preparation, model definition or 
training") 


# task_index 从 90 开始。06 代 表 用 来 初始 化 变量 的 第 一 个 任务 
flags .DEFINE _integer("task_ index", None, 
"Worker task index, should be >= 0 


Sy 


task_index=0 is " 

"the master worker task the performs the 
variable " 

"initialization ") 
# 每 台 机 器 的 GPU 个 数 ， 这 里 在 前 述 Mac 笔 记 本 上 运行 ， 因 此 为 9 
flags.DEFINE_integer("num_gpus", 0, 

"Total number of gpus for each machine." 


"If you don't use GPU, please set it to '0'") 
# 在 同步 训练 模式 下 ， 设 置 收集 的 工作 节点 的 数量 。 默 认 就 是 工作 节点 的 总 数 
flags.DEFINE_integer("replicas_to_aggregate", None, 

"Number of replicas to aggregate before 


parameter update" 

"is applied (For sync_replicas mode only; 
default: " 

"num_workers)") 
flags.DEFINE_integer("hidden_units", 100, 

"Number of units in the hidden layer of the 
NN") 
# 训练 的 次 数 
flags.DEFINE_integer("train_steps", 200, 

"Number of (global) training steps to 


perform" ) 
flags.DEFINE_integer("batch_size", 100, "Training batch size") 
flags.DEFINE_float("learning_rate", 0.01, "Learning rate") 
# 使 用 同步 训练 /异步 训练 
flags.DEFINE_boolean("sync_replicas", False, 

"Use the sync_replicas (synchronized replicas) 


mode, " 
"wherein the parameter updates from workers 
are aggregated " 
"before applied to avoid stale gradients") 
# 如 果 服 务 器 已 经 存在 ， 采 用 gRPC 协 议 通信 ; 如 果 不 存在 ， 采 用 进程 间 通 信 
flags .DEFINE_boolean( 
"existing_servers", False, "Whether servers already exists. If 
True, " 
"will use the worker hosts via their GRPC URLs (one client 
process " 
"per worker host). Otherwise, will create an in-process 
TensorFlow " 
"server.") 
# 参数 服务 器 主机 
flags.DEFINE_string("ps_hosts","localhost:2222", 
"Comma-separated list of hostname:port pairs") 
# 工作 市 点 主机 


flags.DEFINE_string("worker_hosts", 
"localhost: 2223, localhost:2224", 

"Comma-separated list of hostname:port pairs") 
# 本 作业 是 工作 节点 还 是 参数 服务 器 
flags.DEFINE_string("job_name", None,"job name: worker or ps") 


FLAGS = flags.FLAGS 


IMAGE_PIXELS = 28 


下 面 我 们 残 从 命令 行 参 数 中 读 取 参数 服务 硕 和 工作 蔬 点 的 主机 信 
A H tf.train.ClusterSpecK fl] 建 TensorFlow 的 集群 描述 。 


# 读 取 集 群 的 描述 信息 
ps_spec = FLAGS.ps_hosts.split(",") 
worker_spec = FLAGS.worker_hosts.split(",") 


# 创建 TensorFlow 集 群 描述 对 象 
cluster = tf.train.ClusterSpec({ 
"ps": ps_spec, 
"worker": worker_spec}) 


为 本 地 执行 的 任务 创建 TensorFlow 有 的 Server 对 象 。 


if not FLAGS.existing_servers: 

# 创建 本 地 Sever 对 象 ， 从 tf ,train,.Server 这 个 定义 开始 ， 每 个 节点 开始 不 同 

# 根据 执行 的 命令 的 参数 (作业 名 字 ) 不 同 ， 决 定 了 这 个 任务 是 哪个 任务 

# 如 果 作 业 名 字 是 ps， 进 程 就 加 入 这 里 ， 作 为 参数 更 新 的 服务 ， 等 待 其 他 工作 节点 给 它 
提交 参数 更 新 的 数据 

# 如 果 作业 名 字 是 worker， 就 执行 后 面 的 计算 任务 

server = tf.train.Server(cluster, job_name=FLAGS.job_name, 

task_index=FLAGS.task_index) 
# 如 果 是 参数 服务 器 ， 直 接 局 动 即 可 。 这 时 , 进程 就 会 阻塞 在 这 里 
# 下 面 的 tf .train.replica_device_setter 代 码 会 将 参数 指定 给 ps_server 侨 


if FLAGS.job_name == "ps": 
server .join() 


下 面 需 要 处 理工 作 节点 ; 


# 找 出 worker 的 主 节 点 ， 即 task_index 为 6 的 点 
is_ chief = (FLAGS.task_index == 0) 
# 如 果 使 用 gpu 
if FLAGS.num_gpus > 0: 

if FLAGS.num_gpus < num_workers: 

raise ValueError("number of gpus is less than number of 
workers") 
gpu = (FLAGS.task_index % FLAGS.num_gpus) 
# 分 配 worker 到 指定 的 gpu 上 运行 


worker_device = "/job:worker/task:%d/gpu:%d" % 
(FLAGS.task_index, gpu) 


# 如 果 使 用 cpu: 
elif FLAGS.num_gpus == 0: 
# 把 cpu 分 配给 worker 
cpu = 0 
worker_device = "/job:worker/task:%d/cpu:%d" % 
(FLAGS.task_index, cpu) 


我 们 使 用 tf.train.replica_device_setter 将 涉及 变量 的 操作 分 配 到 参数 


服务 器 上 ， 并 使 用 CPU; 将 涉及 非 变 量 的 操作 分 配 到 工作 市 点 上 ， 使 
用 上 一 步 worker_device 的 值 。 


# 在 这 个 a 会 自动 分 配 到 参数 服务 器 上 去 定义 


如 果 有 多 个 参数 服务 器 ， 就 轮流 循环 分 配 
with tf. Gey 
tf.train.replica_device_setter( 
worker_device=worker_device, 
ps_device="/job:ps/cpu:0", 
cluster=cluster) ): 
# 定义 全 局 步 长 ， 默认 值 为 0 
global_step = tf.Variable(0, name="global_step", 
trainable=False) 


y 


H 定义 隐藏 层 参数 变量 ， 这 里 是 全 连接 神经 网 络 隐藏 
hid_w = tf.Variable( 
tf.truncated_normal( 
[IMAGE_PIXELS * IMAGE_PIXELS, FLAGS.hidden_units], 
stddev=1.0 / IMAGE_PIXELS), 
name="hid_w" ) 


hid_b = tf.Variable(tf.zeros([FLAGS.hidden_units]), 
name="hid_b") 


Nil 


# 定义 Softmax 回 归 层 的 参数 变量 
sm_w = tf.Variable( 
tf.truncated_normal( 
[FLAGS.hidden_units, 10], 


stddev=1.0 / math.sqrt(FLAGS.hidden_units)), 
name="sm_w" ) 


sm_b = tf.Variable(tf.zeros([10]), name="sm_b") 


# 定义 模型 输入 数据 变量 


x = tf.placeholder(tf.float32, [None， IMAGE_PIXELS * 
IMAGE_PIXELS]) 


al 


y_ = tf.placeholder(tf.float32, [None, 10]) 


# 构建 隐藏 层 
hid_lin = tf.nn.xw_plus_b(x, hid_w, hid_b) 
hid = tf.nn.relu(hid_lin) 


H 构建 损失 函数 和 优化 器 
y = tf.nn.softmax(tf.nn.xw_plus_b(hid, sm_w, sm_b)) 


cross_entropy = -tf.reduce_sum(y_ * tf.log(tf.clip_by_value(y, 
1e-10, 1.0))) 


# 异步 训练 模式 ， 自己 计算 完 梯度 束 去 更 新 参数 ， 不 同 副 本 之 间 不 会 去 协调 进度 
opt = tf.train.AdamOptimizer (FLAGS.1learning_rate) 


# 同步 训练 模式 
if FLAGS.sync_replicas: 
if FLAGS.replicas_to_aggregate is None: 
replicas_to_aggregate = num_workers 
else: 
replicas_to_aggregate = FLAGS.replicas_to_aggregate 
# 使 用 SyncRep1LicasOptimizer 作 为 优化 器 ， 并 且 是 在 图 间 复 制 情况 下 
# 在 图 内 复制 情况 下 将 所 有 的 梯度 平均 就 可 以 ] 
opt = tf.train.SyncReplicasOptimizer ( 
opt, 
replicas_to_aggregate=replicas_to_aggregate, 
total_num_replicas=num_workers, 
name="mnist_sync_replicas") 


train_step = opt.minimize(cross_entropy, 
global_step=global_step) 


if FLAGS.sync_replicas: 
local_init_op = opt.local_step_init_op 
if is_chief: 
# 所 有 的 进行 计算 的 工作 节点 里 的 一 个 主 工作 节点 (chief) 
# 这 个 主 节 点 负 责 初始 化 参数 、 模 型 的 保存 、 概 要 的 保存 等 
local_init_op = opt.chief_init_op 


ready_for_local_init_op = opt.ready_for_local_init_op 


# 同步 训练 模式 所 需 的 初始 令 牌 和 主队 列 
chief_queue_runner = opt.get_chief_queue_runner() 
sync_init_op = opt.get_init_tokens_op() 


init_op = tf.global_variables_initializer() 
train_dir = tempfile.mkdtemp( ) 


if FLAGS.sync_replicas: 
# 创建 一 个 监管 程序 ， 用 于 统计 训练 模型 过 程 中 的 信息 
# 1ogdir 是 保存 和 加 载 模型 的 路 径 


安 动 融会 去 这 个 logdir 目 录 看 是 否 有 检查 点 文件 ， 有 的 话 就 自动 加 载 

有 就 用 init_op 指 定 的 初始 化 参数 

工作 节点 (chief) 负责 模型 参数 初始 化 等 工作 

这 个 过 程 中 ， 其 他 工作 节点 等 待 主 节点 完成 初始 化 工作 ， 初 始 化 完成 后 ， 一 起 


DE 


# 
# 
# 
# 


开始 训练 数 
# global_step 的 值 是 所 有 计算 节点 共享 的 
# 在 执行 损失 函数 最 小 值 的 时 候 会 自动 加 1， 通 过 global_step 能 知道 所 有 计算 节 
点 一 共计 算 了 多 少 步 
sv = tf.train.Supervisor ( 

is_chief=is_chief, 

logdir=train_dir, 

init_op=init_op, 

local_init_op=local_init_op, 

ready_for_local_init_op=ready_for_local_init_op, 

recovery_wait_secs=1, 

global_step=global_step) 


Ty 


else: 
sv = tf.train.Supervisor ( 
is_chief=is_chief, 
logdir=train_dir, 
init_op=init_op, 
recovery_wait_secs=1, 
global_step=global_ step) 
# 在 创建 会 话 时 ， 设 置 属性 allow_soft_placement 为 True 
# 所 有 的 操作 会 默认 使 用 其 被 指定 的 设备 ， 如 GPU 
# 如 果 该 操作 画 数 没有 GPU 实现 时 ， 会 自动 使 用 CPU 设备 
sess_config = tf.ConfigProto( 
allow_soft_placement=True, 
log_device_placement=False, 
device_filters=["/job:ps", "/job:worker/task:%d" % 
FLAGS. task_index] ) 


# 主 工作 节点 (chief) ， 即 task_index 为 9 的 节点 将 会 初始 化 会 话 
# 其 余 的 工作 节点 会 等 待 会 话 被 初始 化 后 进行 计算 
if is_chief: 
print("Worker %d: Initializing session..." % 
FLAGS. task_index) 
else: 
print("Worker %d: Waiting for session to be initialized..." % 


FLAGS. task_index) 


if FLAGS.existing_servers: 
server_grpc_url = "grpc://" + worker_spec[ FLAGS. task_index] 
print("Using existing server at: %s" % server_grpc_url) 


# 创建 TensorFlow 会 话 对 象 ， 用 于 执行 TensorFlow 图 计算 

# prepare_or_wait_for_session 需 要 参数 初始 化 完成 且 主 节点 也 准备 好 
才 开 始 训练 

sess = sSv.prepare_or_wait_for_session(server_grpc_url, 
config=sess_config) 


an 


else: 
sess = sSv.prepare_or_wait_for_session(server.target, 
config=sess_config) 


print("Worker %d: Session initialization complete." % 
FLAGS. task_index) 


if FLAGS.sync_replicas and is_chief: 
sess.run(sync_init_op) 
sv.start_queue_runners(sess, [chief_queue_runner ] ) 


# 执行 分 布 式 模型 训练 
time_begin = time.time() 
print("Training begins @ %f" % time_begin) 


local step = 0 

while True: 
# 读 入 MNIST 的 训练 数据 ， 默 认 每 批 次 为 109 张 图 片 
batch_xs, batch_ys = mnist.train.next_batch(FLAGS.batch_size) 
train_feed = {x: batch_xs, y_: batch_ys} 


_, step = sess.run([train_step, global_step], 
feed_dict=train_feed) 
local_step += 1 


now = time.time() 
print("%f: Worker %d: training step %d done (global step: 
%d)" % 
(now, FLAGS.task_index, local_step, step)) 


if step >= FLAGS.train_steps: 
break 


time_end = time.time() 

print("Training ends @ %f" % time_end) 

training time = time_end - time_begin 
print("Training elapsed time: %f s" % training_time) 


# ILAMNISTAYSUERE , VEREA XA 
val_feed = {x: mnist.validation.images, y_ 
mnist.validation. labels} 
val_xent = sess.run(cross_entropy, feed_dict=val_feed) 
print("After %d training step(s), validation cross entropy = 
%g" % 


(FLAGS.train_steps, val_xent) ) 


14.7 ”小结 


本 章 主要 介绍 了 TensorFlow 的 分 布 式 原理 、 分 布 式 架 构 、 分 布 式 模 
式 等 知识 ， 以 及 TensorFlow 实 现 分 布 式 所 需要 的 API， 整 理 了 
TensorFlow 分 布 式 训练 代码 的 框架 结构 ， 最 后 以 MNIST 为 例 讲解 了 实现 
TT ALTE ° 
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第 15 章 ”TensorFlow 线 性 代数 编译 框架 XLA 


XLA (Accelerated Linear Algebra) 是 用 于 线性 代数 领域 的 专用 编 
i#4s (domain-specific compiler) ， 用 于 优化 TensorFlow 计 算 。XLA 通 
过 即时 (just-in-time, JIT) 编译 或 提前 (ahead-of-time, AOT) 编译 
来 进行 实验 ， 尤 其 有 助 于 面向 硬件 加 速 的 开发 者 。XLA 框 轿 目 前 还 是 
处 于 试验 阶段 的 。 


本 章 我 们 主要 讲述 XLA 的 优势 、 工 作 原 理 和 XLA 的 一 些 应 用 。 H 


15.1 XLA 的 优势 


XLA 是 一 个 线性 代数 的 领域 专用 编译 器 ， 能 在 执行 速度 、 内 存 的 
使 用 、 对 目 定义 操作 的 依赖 、 移 动 端 的 内 存 占 用 和 可 移植 性 等 方面 优 
化 了 TensorFlow 的 计算 。 


。 提高 执行 速度 。 通 过 编译 子 图 来 减少 生命 周期 较 短 的 操作 的 执行 
时 间 ， 通 过 融合 管道 化 的 操作 来 减少 内 存 占用 。 

。 提高 内 存 的 使 用 。 分 析 和 规划 内 存 的 使 用 需求 ， 消 除 许 多 中 间 结 
果 的 缓存 。 

。 减少 对 自 定 义 操作 的 依赖 。 通 过 提高 自动 化 融合 底层 操作 (low- 
level op) 的 性 能 ， 达 到 原先 需要 手动 融合 自 定 义 操 作 (custom 
op) 的 效果 。 


。 减少 移动 端的 内 存 占 用 〈 移 动 端的 应 用 详 见 第 19 章 ) 。 一 是 通过 
提前 (AOT) 编译 子 图 来 减少 TensorFlow 的 执行 时 间 ， 二 是 通过 共 
享 头 文件 对 (如 xxx.o 和 xxx.h) 被 其 他 程序 直接 链接 。 这 两 个 操作 
能 够 使 移动 端 预 测 的 内 存 占 用 减少 儿 个 数量 级 。 

。 提高 可 移植 性 。 可 以 用 XLA 为 新 的 硬件 设备 开发 一 个 新 的 后 端 ， 
使 TensorFlow 不 需要 更 改 很 多 代码 就 可 以 用 在 新 的 硬件 设备 上 。 


15.2 XLA 的 工作 原理 


学 过 C 语 言 的 人 可 能 知道 ，LLVM 是 一 个 编译 器 的 框架 系统 ， 
C++ 编写 而 成 ， 用 于 优化 以 任意 编程 语言 编写 的 程序 的 编译 时 间 


(compile time) ` 链接 时 间 (link time) x 运行 时 间 (run time) 以 及 
空闲 时 间 (idle time) 。 [4 


在 基于 LLVM 的 编译 器 中 ， 前 端 负责 解析 、 验 证 和 诊断 输入 代码 中 
的 错误 ， 然 后 将 解析 的 代码 转换 为 LLYM 中 间 表 示 (intermediate 
representation, IR) 。 该 IR 通 过 一 系列 分 析 和 优化 过 程 来 改进 代码 ， 然 
后 发 送 到 代码 生成 器 中 ， 以 产生 本 地 机 器 代码 。 如 图 15-1 所 示 ， 这 是 一 
个 非常 直接 的 三 相 设 计 的 LLVM 实 现 。 设 计 中 最 重要 的 是 LLVM IR， 在 
编译 器 中 IR 被 用 来 表示 代码 。 


Clang C/C++/ObjC 
前 端 


Pay, 


Ilvm-gee Hif ži 


X86 后 端 


Fortran 


Haskell 


图 15-1 B] 


XLA 的 输入 语言 称 为 HLO IR，XLA 使 用 在 HLO 中 定义 的 图 形 ， 并 
将 它们 编译 成 各 种 体系 结构 的 机 器 指令 。 图 15-2 展 示 的 是 XLA 中 的 编 
EAR o A 


目标 无 关 的 优化 和 分 析 


目标 相关 的 优化 和 分 析 


目标 特定 的 代码 生成 


如 图 15-2 所 示 ，XLA 首 先进 行 目标 无 关 的 优化 和 分 析 ， 如 公共 子 
表达 式 消 除 (common subexpression elimination, CSE) 、 目 标 无 关 的 
操作 融合 (如 将 多 个 操作 融合 成 一 个 操作 ) 和 运行 时 内 存 的 缓冲 区 分 
析 等 。 


接着 ，XLA 将 HLO 计 算 发 送 到 后 端 。 后 端 执 行进 一 步 的 HLO 级 目 
标 相 关 的 优化 和 分 析 。 例 如 ，XLA GPU 后 端 可 以 执行 对 GPU 编程 模型 
有 益 的 操作 融合 ， 并 且 确 定 如 何 将 计算 划分 成 流 。 


下 一 步 是 生成 目标 特定 的 代码 。XLA 里 面 的 CPU 和 GPU 后 端 使 用 
LLVM 进 行 中 间 表 示 、 优 化 及 代码 生成 。 这 些 后 端 用 LLVM IR 来 表示 
XLA HLO 计 算 。 


XLA 目 前 支持 在 x86-64 和 NVIDIA GPU 上 进行 JIT 编 译 ， 以 及 在 x86- 
64 和 ARM 上 进行 AOT 编 译 。 因 此 ，AOT 编 译 方式 更 适合 移动 端 和 舱 入 
式 的 深度 学 习 使 用 。 下 面 我 们 就 以 JIT 编 译 为 例 进行 说 明 。 


15.3 ” JIT 编译 方式 


TensorFlow 的 XLA JIT 编 译 器 通过 XLA 编 译 和 运行 TensorFlow 计 算 
图 的 一 部 分 。 与 标准 TensorFlow 实 现 相 比 ，XLA 可 以 将 多 个 操作 (内 
核 ) 融合 到 少量 编译 内 核 中 ， 融 合 操 作 符 可 以 减少 存储 器 市 宽 需 求 并 


提高 性 能 。 
通过 XLA 运 行 TensorFlow 计 算 有 两 种 方法 ， 一 是 打开 CPU 或 GPU 设 
备 上 的 JIT 编 译 ， 二 是 将 操作 符 放 在 XLA_CPU 或 XLA_GPU 设 备 上 ° 


15.3.1 打开 JIT 编 译 


打开 JIT 编 译 可 以 有 两 种 方式 。 下 面 是 在 会 话 上 打开 ， 这 种 方式 会 
把 所 有 可 能 的 操作 符 编 程 成 XLA 计 算 。 用 法 示例 如 下 : 


config = tf.ConfigProto() 
config.graph_options.optimizer_options.global_jit_level = 


tf .OptimizerOptions.ON_1 
sess = tf.Session(config=config) 


另 一 种 方式 是 为 一 个 或 多 个 操作 符 手 动 打开 JIT 编 译 。 这 是 通过 使 
用 属性 _XlaCompile = true 标 记 要 编译 的 操作 符 来 完成 的 。 用 法 示例 如 
下 : 


jit_scope = tf.contrib.compiler.jit.experimental_jit_scope 
x = tf.placeholder(np.float32) 


with jit_scope(): 
y = tf.add(x, x) 


15.3.2 ”将 操作 符 放 在 XLA 设 备 上 


目前 有 效 的 设备 是 XLA_CPU 或 XLA_GPU， 示 例如 下 : 


with tf.device("/job:localhost/replica:0/task:0/device:XLA_GPU:0"): 


output = tf.add(input1, input2) 


15.4 JIT 编 译 在 MNIST 上 的 实现 


下 面 我 们 就 用 MNIST 的 softmax 版 本 来 尝试 使 用 XLA 和 不 使 用 XLA 
的 差异 。 代 码 位 于 tensorflow- 


1.1.0/tensorflow/examples/tutorials/mnist/mnist_softmax_xla.py'F ° 


不 使 用 XLA 来 运行 时 ， 如 下 : 


python mnist_softmax_xla.py --xla=false 


运行 完成 后 生成 时 间 线 文件 timeline.ctf.json， 使 用 Chrome 跟 踪 事 件 
ax (在 浏览 器 中 访问 chrome://tracing) ， 打 开 该 时 间 线 文件 ， 呈 现 


的 时 间 线 如 图 15-3 所 示 。 


prs ' ; ; 
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~ /job:localhost/replica:0/task:0/cpu:0 Compute (pid 1) 
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图 15-3 


图 15-3 中 最 左 侧 一 列 列 出 了 本 机 的 4 个 GPU。 可 以 清晰 地 看 到 图 中 
MatMul 操 作 符 ， 跨 越 4 个 CPU 的 时 间 消 耗 情 况 。 


让 我 们 使 用 XLA 来 训练 模型 ， 如 下 : 


TF_XLA_FLAGS=- -xla_generate_hlo_graph=.* python 


mnist_softmax_xla.py 


运行 完成 后 ， 得 到 的 时 间 线 图 像 如 图 15-4 所 示 。 


0.1 ms 
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图 15-4 


我 们 看 看 如 何 调用 JIT 编 译 ， 关 键 的 训练 代码 如 下 。 下 面 讲解 了 如 
何 开局 XLA 的 JIT 编 译 ， 以 及 如 何 将 训练 妃 踩 写 入 时 间 线 文件 。 


config = tf.ConfigProto() 
jit_level = 0 
if FLAGS.xla: 

# 开启 XLA 的 JIT 编 译 


jit_level = tf.OptimizerOptions.ON_1 


config.graph_options.optimizer_options.global_jit_level = 
jit_level 


run_metadata = tf.RunMetadata() 
sess = tf.Session(config=config) 
tf.global_variables_initializer().run(session=sess) 
# 训练 
train_loops = 1000 
for i in range(train_loops): 

batch_xs, batch_ys = mnist.train.next_batch(100) 


# 在 最 后 一 次 循环 中 ， 创 建 时 间 线 文件 ， 可 以 用 chrome://tracing/ 打 开 和 分 析 
if i == train loops - 1: 
sess.run(train_step, 
feed_dict={x: batch_xs, y_: batch_ys}, 


options=tf.RunOptions(trace_level=tf.RunOptions.FULL_TRACE), 
run_metadata=run_metadata) 
trace = timeline.Timeline(step_stats=run_metadata.step_stats) 
trace_file = open('xlatimeline.ctf.json', 'w') 
trace_file.write(trace.generate_chrome_trace_format() ) 
else: 
sess.run(train_step, feed_dict={x: batch_xs, y_: batch_ys}) 


目前 XLA 框 架 还 处 于 试验 阶段 ，AOT 主 要 应 用 场景 是 一 些 内 存 较 
小 的 艇 入 式 设备 、 手 机 、 树 莹 派 等 ， 对 于 性 能 要 求 较 高 的 读者 可 以 做 
一 步 探索 和 发 现 。 


15.5 “小 结 


本 贡 主 要 讲述 了 TensorFlow 的 线性 代数 编译 框 染 XLA 的 工作 原理 ， 
JIT 编 译 和 AOT 编 译 的 适用 范围 ， 重 点 讲解 了 JIT 编 译 方式 的 两 种 实现 方 
去 。 最 后 用 MNIST 数 据 集 展 现 了 如 何 使 用 JIT 编 译 。XLA 是 TensorFlow 
1.0 版 本 加 入 的 新 特性 ， 还 有 待 完善 。 本 章 重 点 面向 开发 中 对 性 能 要 求 
较 高 的 开发 者 。 


[1] 本意 内 容 主 要 参考 TensorFlow 官 方 网 站 : 


https://www.tensorflow.org/versions/master/experimental/xla/ ° 


[2] “参考 百度 百科 “LLVM”: http://baike.baidu.com/link? 
url=0c67Vs4dGqctj TSoQ9xpF2yWxmUxaj8SN4UhPAtg4t3xtai22h9- 
L3IY_qSuabj9FYyJyfXvrqbllf80Sg19s_ ° 


[3] 本 图 参考 http://www.aosabook.org/en/llvm.html ° 


[4] ”本 图 参考 TensorFlow 官 方 网 站 : 


https://www.tensorflow.org/versions/master/experimental/xla/ ° 


816 TensorFlow Debugger [1] 


TensorFlow Debugger (tfdbg) 是 TensorFlow 的 专用 调试 器 。 它 使 用 
靳 点 和 计算 机 图 形 化 来 展现 实时 数据 流 ， 提 供 了 运行 TensorFlow 图 形 的 
内 部 结构 和 状态 的 可 视 化 。 这 种 可 视 化 非常 有 助 于 在 训练 和 推理 期 间 
调试 各 种 类 型 的 模型 错误 。 


本 章 会 通过 讲解 如 何 调试 TensorFlow 模 型 开发 中 一 种 常见 的 错误 类 
非 数 字 (nan) 和 无 限 值 (inf) 导致 的 训练 失败 ， 来 展示 tfdbg 命 
SÍTA (command line interface, CLI) 的 功能 。 而 这 对 一 般 调 试 器 
(如 C++ 的 gdb 或 者 Python 的 pdb) 来 说 ， 是 很 难 调试 的 。 


型 


此 外 ，TensorFlow 这 种 使 用 符号 式 编 程 的 语言 本 号 就 以 难 调试 而 周 
名 ， 没 有 经 验 的 开发 者 常常 很 难 直观 地 感受 数据 流 图 在 做 什么 ， 
此 ， 出 现 了 问题 就 难以 定位 ， 更 谈 不 上 说 高 级 的 优化 任务 。 


16.1 Debugger 的 使 用 示例 


本 节 我 们 以 一 个 错误 运行 的 MNIST 训 练 为 例 ， 看 看 如 何 通过 
TensorFlow Debugger 来 找到 出 错 的 地 方 ， 并 改正 。 源 代码 位 于 
tensorflow-1.1.0/tensorflow/python/debug/examples/debug_mnist.py。 我 们 
移 不 加 调试 器 ， 直 接 执行 ， 如 下 : 


python -m tensorflow.python.debug.examples.debug_mnist 


也 可 以 进入 tensorflow-1.1.0/tensorflow/python/debug/examples 执 


一 


ÍT: 


python debug_mnist. py 


经 过 10 次 训练 ， 结 果 如 下 : 
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可 以 看 出 ， 准 确 率 在 第 一 次 训练 时 有 所 上 升 ， 后 面 一 直 保持 在 较 
低 的 水 平 。 


下 面 我 们 就 用 TensorFlow Debugger 来 党 试 调试 。 仅 需要 在 原 有 的 
文件 中 加 上 下 面 3 行 代码 ， 就 可 以 在 每 次 调用 run(0) 之 前 和 之 后 调用 基于 
终端 的 用 户 界 面 (UD ， 来 控制 执行 和 检查 图 的 内 部 状态 ; 


from tensorflow.python import debug as tf_debug 


sess = tf_debug.LocalCLIDebugWrapperSession(sess) 
sess.add_tensor_filter("has_inf_or_nan", tf_debug.has_inf_or_nan) 


在 这 个 例子 中 ， 我 们 为 张 量 值 注册 了 一 个 过 滤 侨 has_inf_or_nan， 
它 能 够 判断 出 图 的 任何 中 间 张 量 中 是 否 有 nan 或 inf 值 。 


现在 我 们 就 开启 调试 模式 (debug) ， 找 出 准确 率 无 法 提高 的 原 
° 首先 执行 


python -m tensorflow.python.debug.examples.debug_mnist -debug 


也 可 以 通过 如 下 方式 执行 : 


python debug_mnist.py --debug=True 


这 时 束 进 入 了 Debugger 的 界面 ， 如 图 16-1 所 示 。 


1 fetch Caccuracy/accurocy/Meon:@); 2 feeds 
exit 


图 16-1 


这 就 是 我 们 说 的 运行 开始 的 UI (run-start UI) 。 在 tfdbg> 后 面 可 以 
输入 交互 式 的 命令 ， 如 run0 (或 者 缩写 rm) ， 就 可 以 进入 运行 结束 后 UI 


(run-end UI) ， 如 图 16-2 所 示 。 


图 16-2 


tfdbg> run -t 10 


可 以 使 用 下 面 的 命令 直到 找 出 在 图 形 中 的 第 一 个 nan 或 者 inf 值 〈 这 
类 似 于 调试 中 的 打 断 点 ) 


tfdbg> run -f has_inf_or_nan 


结果 如 图 16-3 所 示 。 


图 16-3 


第 一 行 的 灰 底 字 《电脑 屏幕 中 显示 为 红字 ) ， 表 示 tfdbg 在 调用 
run(0 后 立即 停止 ， 生 成 了 通过 指定 过 滤器 has_inf or nan 的 中 间 张 量 。 
如 图 16-3 所 示 ， 在 第 4 次 调用 run0 期 间 ， 有 36 个 中 间 张 量 包 含 inf 或 者 
nan 值 ， 首 次 出 现在 cross_entropy/Log:0。 


单 击 图 中 的 cross_entropy/Log:0， 并 且 单 击 下 划 线 的 node_info 荣 单 
项 ， 仔 细 看 一 下 这 个 万 点 的 输入 张 量 ， 并 且 看 看 里 面 是否 有 0 值 。 方 法 
如 下 : 


tfdbg> pt softmax/Softmax:0 


tfdbg> /0\.000 


果然 是 有 0 值 ， 如 图 16-4 所 示 。 


| List_tensors | node_info | print_tensor | List_inputs | list_outputs | run_info | help | 


BERD [ 1.00000000e+00, 8.66659036e-11, 1.98895123e-10,  4.53776508e-25,  7.66202843e-17, 1.39139491e-08, 7.68209356e-20, ZC00000e+100， 3. 89484434e-22, 
6.13529644e-11], 所 一 


图 16-4 


用 mi 命令 的 -t 标 志 进 行 妃 调 ， 方 法 如 下 : 


ni -t cross_entropy/Log 


追溯 结果 如 图 16-5 所 示 ， 可 以 看 到 debug_mnist.py 文 件 的 第 102 行 是 
罪魁 祸首 。 


raceback of node construction: 

: debug_mnist.py 

Line: 167 

Function: <module> 

Text: "tf.app.run(main=main, argv=[sys.argv[@]] + unparsed)" 


: /usr/local/1lib/python2.7/site-packages/tensorflow/python/pLatform/app. py 
Line: 44 

Function: run 

Text: "_sys.exit(main(_sys.argv[:1] + flags_passthrough))" 


: debug_mnist.py 
Line: 102 
Function: main 


Text: "diff = y_ * tf.logly)" “| 


: /usr/lLocal/Lib/python2.7/site-packages/tensorflow/python/ops/gen_math_ops .py 
Line: 1345 

Function: log 

Text: "result = _op_def_Lib.appl 


图 16-5 


于 是 ， 我 们 对 纪 log 的 输入 值 进行 裁 甬 ， 将 这 个 问题 解决 : 


diff = y_ * tf.log(tf.clip_by_value(y, 1e-8, 1.0)) 


再 次 运行 后 ， 准 确 率 不 再 低 值 徘徊 ， 恢 复 正 帝 。 


TensorFlow Debugger 是 一 个 非常 好 用 的 调试 工具 ， 还 有 很 多 交互 
式 命令 ， 感 兴趣 的 读者 可 以 进一步 参考 tfdbg 的 命令 行 接口 教程 加 o 


16.2 ”远程 调试 方法 


上 面 的 使 用 示例 是 在 本 地 的 调试 方法 。 但 通 芝 情况 下 ， 数 据 是 在 
远程 机 器 上 训练 ， 更 一 般 的 情况 是 ， 深 度 学 习 越 来 越 倾向 于 在 云端 训 
练 ， 本 地 不 能 访问 训练 过 程 中 的 数据 。 那 么 ， 这 种 情况 下 如 何 进行 模 
型 的 调试 呢 ? 


这 时 采用 tfdbg 的 offline_analyzer。 设置 一 个 本 地 和 远程 机 器 都 能 访 
问 的 共享 目录 ， 如 /home/somebody/tfdbg_dumps_1°。 然 后， 通过 
debug_nutils.watch_graph 函 数 设置 运行 时 的 参数 选项 。 在 运行 
session.run() 时 就 会 将 中 间 张 量 和 运行 时 的 图 像 转 储 到 共享 目录 中 。 方 
法 如 下 : 


from tensorflow.python.debug import debug_utils 


# 此 处 代码 如 : 构建 图 ， 生 成 session 对 和 象 等 。 已 省 略 

run_options = tf.RunOptions() 

debug_utils.watch_graph( 
run_options, 
session.graph, 
debug_urls=["file:///home/somebody/tfdbg_dumps_i"]) # 共享 目录 的 位 


# 这 里 如 果 用 多 个 客户 端 执行 run， 应 该 使 用 多 个 不 同 的 共享 目录 
session.run(fetches, feed_dict=feeds, options=run_options) 


这 样 ， 在 本 地 终端 上 就 可 以 使 用 tfdbg 的 offline_analyzer 来 加 载 
和 检查 共享 目录 中 的 数据 。 方 法 如 下 : 


python -m tensorflow.python.debug.cli.offline_analyzer \ 


--dump_dir=/home/somebody/tfdbg_dumps_1 


HPE TB) A TT EEE SY) BL as EKAN 
DumpingDebugWrapperSession 来 在 共享 目录 中 产生 训练 中 的 累积 文 
件 。 直 接 这 样 使 用 : 


from tensorflow.python.debug import debug_utils 


sess = tf_debug.DumpingDebugWrapperSession( 
sess, "/home/somebody/tfdbg_dumps_1/", watch_fn=my_watch_fn) 


16.3 小结 


本 章 主 要 介绍 了 TensorFlow Debugger， 这 是 一 个 非常 有 用 的 调试 
工具 。 在 训练 神经 网 络 的 过 程 中 ， 开 发 者 常常 会 因为 各 种 原因 ， 写 错 
某 个 参数 或 者 变量 的 什 ， 虽 然 这 时 候 训 练 过 程 不 会 报销 ， 但 是 会 导致 
损失 值 很 长 时 间 都 不 下 降 ， 模 型 收敛 很 慢 。 本 章 还 介绍 了 远程 调试 的 
方法 。 以 往 面 对 这 种 情况 ， 开 发 人 员 需 要 费 很 大 力气 去 查找 原因 。 使 
用 TensorFlow Debugger 可 以 在 早期 的 一 两 次 人 送 代 中 ， 观 察 张 量 的 正确 
与 否 ， 给 调试 带 来 极 大 帮助 。Debugger 是 TensorFlow 1.0 新 加 入 的 特 
性 ， 目 前 还 在 不 断 完善 ， 并 有 是 有望 和 TensorBoard 结 合 ， 更 大 限度 地 简 
化 调试 过 程 。 


[1] 本章 内 容 主要 参考 


https://www.tensorflow.org/programmers_guide/debugger ° 


[2] https://www.tensorflow.org/programmers_guide/debugger 


第 17 章 ”TensorFlow 和 Kubernetes 结 合 


在 AlphaGo 中 ， 每 个 实验 使 用 1 000 个 节点 ， 每 个 节点 有 4 个 GPU 
也 就 是 使 用 了 4 000 个 GPU。 在 Siri 中 ， 每 个 实验 2 个 节点 ， 也 就 是 使 用 
了 8 个 GPU。 可 想 而 知 ，AI 研 究 的 进行 依赖 于 海量 数据 的 计算 ， 同 时 也 
离 不 开 高 性 能 计算 资源 的 文 持 。 


在 第 14 章 中 我 们 已 经 讲解 了 TensorFlow 的 分 布 式 原理 以 及 部 署 方 
式 。 随 着 海量 数据 的 出 现 和 模型 参数 的 增多 ， 我 们 必然 需要 更 大 的 集 
群 来 运行 模型 ， 这 样 最 大 的 好 处 在 于 把 原本 可 能 需要 周 级 别 的 训练 时 
间 缩 短 到 天 级 别 长 至 小 时 级 别 。 未 来 的 模型 训练 面 对 的 都 是 上 亿 数 据 
和 上 亿 参 数 ， 稳 定 的 计算 能 力 和 管理 便捷 的 集群 环境 至 关 重 要 。 
Kubernetes 是 目前 应 用 最 广泛 的 容 絮 集群 管理 工具 之 一 ， 它 可 以 为 对 分 
布 式 TensorFlow 的 监控 、 调 度 等 生命 周期 管理 提供 所 需 的 保障 。 


17.1 为 什么 需要 Kubernetes 


有 过 大 数据 集群 开发 经 验 的 人 都 知道 ， 尽 管 TensorFlow 有 目 己 的 分 
布 式 方案 ， 但 仍 需要 手动 把 每 台 机 器 运行 起 来 ， 当 机 器 量 是 几 人 台 或 十 
几 台 的 时 候 ， 可 能 压力 不 大 ， 但 当 机 器 量 达 到 上 于 人 台 时 ， 就 需要 一 样 
东西 来 进行 管理 和 调度 ， 进 行 自动 化 部 署 、 调 度 、 扩 容 和 缩 容 处 理 ， 
甚至 当 一 些 任务 意外 退出 后 ， 还 需要 控制 自动 重启 。Kubernetes 就 提供 
了 这 样 的 解决 方案 。 


Kubernetes 官 方 H 的 解释 是 : Kubernetes 是 一 个 用 于 容器 集群 的 自 
动 化 部 署 、 扩 容 以 及 运 维 的 开源 平台 ， 它 可 以 提供 任务 调度 、 监 探 、 
失败 重启 等 功能 。 


另外 ， 因 为 TensorFlow 和 Kubernetes 都 是 谷歌 公司 的 开源 产品 ， 所 
以 非常 容易 在 它们 之 间 搭 起 桥 染 ， 并 且 谷 歌 云 平台 A 也 在 推出 平台 化 
的 解决 方案 。 


17.2 分布 式 TensorFlow 在 Kubernetes 中 的 运行 


下 面 我 们 束 来 介绍 在 Kubernetes 中 运行 分 布 式 TensorFlow 的 方法 。 
本 节 首 先 学 习 如 何 部 署 Kubernetes 环 境 ， 接 着 在 搭建 好 的 环境 中 运行 分 
布 式 TensorFlow， 并 用 MNIST 来 训练 。 


17.2.1 部 署 及 运行 


我 们 需要 先 安 装 Kubernetes。 这 里 是 用 Mac 来 演示 的 ， 其 他 操作 系 
统 也 大 同 小 异 。 


我 们 用 Minikube 来 创建 本 地 Kubernetes 集 群 。 安 装 Minikube 需 要 预 
先 安装 VirtualBox 虚 拟 机 ， 读 者 可 以 从 官网 B 上 直接 下 载 安装 ， 注 意 选 
择 对 应 的 操作 系统 版 本 即 可 。 图 17-1 是 我 选用 的 版 本 。 


Welcome to VirtualBox.org! 


VirtualBox is a powerful x86 and AMD64/Intel64 virtualization product for enterprise as well as home use. Not only is News Flash 
About VirtualBox an extremely feature rich, high performance product for enterprise customers, it is also the only professional 
Screenshots solution that is freely available as Open Source Software under the terms of the GNU General Public License (GPL) . CE January 17th, 2017 
version 2. See “About VirtualBox" for an introduction. VirtualBox 5.1.14 released! 
Downloads Oracle today released a 5.1 
i Presently, VirtualBox runs on Windows, Linux, Macintosh, and Solaris hosts and supports a large number of guest maintenance release which 
Documentation operating systems including but not limited to Windows (NT 4.0, 2000, XP, Server 2003, Vista, Windows 7, Windows 8, improves stability and fixes 
End-user docs Windows 10), DOS/Windows 3.x, Linux (2.4, 2.6, 3.x and 4.x), Solaris and OpenSolaris, OS/2, and OpenBSD. POM oe: See the Changelog 
r details. 
Technical docs VirtualBox is being actively developed with frequent releases and has an ever growing list of features, supported guest Decem 
operating systems and platforms it runs on. VirtualBox is a community effort backed by a dedicated company: everyone be EE Pee 二 
Contribute is encouraged to contribute while Oracle ensures the product always meets professional quality criteria. Looking for a new challenge? 
Community - 一 We're looking for a GUI developer 


(Germany/European Union). 
CEJ July 12th, 2016 
VirtualBox 5.1 released! 

Many enhancements and 
improvements. Read more in the 
announcement. 


More information... 


Hot picks: 


+ Pre-built virtual machines for developers at ©» Oracle Tech Network 
+ Hyperbox Open-source Virtual Infrastructure Manager project site 


图 17-1 


Minikube 用 Go 语言 编写 ， 发 布 形式 是 一 个 独立 的 二 进 制 文件 ， 所 
需要 下 载 下 来 ， 然 后 放 在 对 应 的 位 置 即 可 。 因 此 安装 Minikupe， 
了 要 一 条 命令 


以 


后 


ZN 


Eini 


curl -Lo minikube 
https://storage.googleapis.com/minikube/releases/v0.14.0/ 
minikube-darwin-amd64 && chmod +x minikube && sudo mv minikube 
/usr/local/bin/ 


Kubernetes 提 供 了 一 个 客户 端 kubect， 可 直接 通过 kubect 以 命令 行 
的 方式 与 集群 交互 。 


安装 kubectl 的 方法 如 下 : 


curl -Lo kubectl http://storage.googleapis.com/kubernetes- 
release/release/v1.5.1/ 
bin/darwin/amd64/kubectl && chmod +x kubectl && sudo mv kubectl 


/usr/local/bin/ 


下 面 在 Minikube 中 启动 Kubernetes 集 群 ， 如 图 17-2 所 示 。 


ube start 
Starting local Kubernetes cluster... 


Kubectl is now configured to use the cluster. 


图 17-2 


可 以 观察 到 VirtualBox 中 也 局 动 了 相应 的 虚拟 机 ， 如 疼 17-3 所 示 。 


(E) Oracle VM VirtualBox 管理 器 
iy? me J 
ia 过 + 
新 建 (N) RENS) 显示 (H) 
i minikube _ = 常规 = 预览 
- See 名 称 : minikube 
操作 系统 : Linux 2.6 / 3.x / 4.x (64- 
bit) 
ls) 系统 
内 存 大 小 : 2048 MB 
处 理 器 : 2 
启动 顺序 : 光驱 , 光驱 , 硬盘 


硬件 加 速 : VT-x/AMD-V, REDA, 
PAE/NX, KVM 半 虚 拟 化 


E 显示 

显存 大 小 : 8 MB 
远程 桌面 服务 器 : 已 禁用 
录像 : 已 禁用 
因 存储 

控制 器 : SATA 


SATA 端口 0: [光驱 ] boot2docker.iso (68.95 MB) 
SATA 端口 1: disk.vmdk (普通 , 19.53 GB) 


> AS 
主机 音频 驱动 : CoreAudio 
控制 芯片 : ICH AC97 
a 网 络 


图 17-3 


我 们 采用 Docker Hub |4! 上 的 最 新 镜像 tensorflow/tensorflow (基于 
TensorFlow 的 1.0 版 本 ) ° 


首先 ， 配 置 参数 服务 器 的 部 署 (deployment) 文件 ， 命 名 为 tf-ps- 
deployment.json。 代码 如 下 : 


"apiVersion": "extensions/vibetai", 
"kind": "Deployment", 
"metadata": { 
"name": "tensorflow-ps2" 
ty 
"Spec": { 
"replicas": 2, 
"template": { 
"metadata": { 
"labels": { 
"name": "tensorflow-ps2", 
"role" : "ps" 
} 
ty 


"spec": { 


"containers": [ 


"name": "os", 
"image": "tensorflow/tensorflow", 
"ports": [ 


"ContainerPort": 2222 


配置 参数 服务 器 的 服务 (Service) 文件 ， 命 名 为 tf-ps- 
service.json， 代 码 如 下 : 


"apiVersion": "vi", 
"kind": "Service", 
"spec": { 

"ports": [ 


"port": 2222, 
"targetPort": 2222 


} 
], 


"selector": { 
"name": "tensorflow-ps2" 
} 


1 
"metadata": { 
"labels": 
"tensorflow", 
"service" 


"name": "tensorflow-ps2-service" 


} 
} 


配置 计算 服务 器 的 部 署 文件 ， 命 名 为 tf-worker-deployment.json， 代 
码 如 下 : 


"apiVersion": "extensions/vibetai", 
"kind": "Deployment", 
"metadata": { 

"name": "tensorflow-worker2" 


"spec": { 
"replicas": 2, 
"template": { 


"metadata": 
"labels": 
"name": "tensorflow-worker2", 
"role": "worker" 
} 
}, 
"Spec": { 
"containers": [ 
{ 


"name": "worker", 


"image": "tensorflow/tensorflow", 
"ports": [ 


"containerPort": 2222 


"apiVersion": "vi", 
"kind": "Service", 
"spec": { 

"ports": [ 


"port": 2222, 
"targetPort": 2222 
} 
], 


"selector": { 
"name": "tensorflow-worker2" 


} 


"metadata": { 
"labels": 


"tensorflow-worker2", 
"service" 


"name": "tensorflow-wk2-service" 


} 
} 


Th tit: 


kubectl create -f tf-ps-deployment.json 


kubectl create -f tf-ps-service.json 
kubectl create -f tf-worker-deployment.json 
kubectl create -f tf-worker-service.json 


分 别 输出 以 下 绪 采 : 


deployment "tensorflow-ps2" created 
service " tensorflow-ps2-service" created 
deployment "tensorflow-worker2" created 
service "tensorflow-wk2-service" created 


稍 等 片刻 ， 运 行 kubect] get pod， 可 以 看 到 参数 服务 絮 和 计算 服务 
器 全 部 创建 完成 ， 如 图 17-4 所 示 。 


k8s kubectl get pod 
NAME STATUS RESTARTS AGE 
hello-minikube-957602326-b0k5z Running 
tensorflow-ps2-3073558082-3b08h Running 


tensorflow-ps2-3073558082-4x3j2 Running 
tensorflow-worker2-3070479207-6hvsk Running 
tensorflow-worker2-3070479207-k6z8f Running 


图 17-4 


下 面 我 们 进入 每 个 服务 器 (Pod) 中 ， 部 署 好 需要 运行 的 
mnist_replica.py 文 件 。 


首先 查看 以 下 2 台 ps_host 的 IP 地 址 ， 如 图 17-5 所 示 。 


= k8s kubectl describe service tensorflow-ps2-service 
Name: tensorflow-ps2-service 
Namespace: default 
Labels: name=tensorf Low 

role=service 
Selector: name=tensorflow-ps2 


ClusterIP 

10.0.0.50 

<unset> 2222/TCP 
Endpoints: 172.17.0.16:2222,.172.17.0.17 52222 
Session Affinity: None 
No events. 


图 17-5 


然后 查看 2 台 worker_host 的 IP 地 址 ， 如 图 17-6 所 示 。 


k8s kubectl describe service tensorflow-wk2-service 
Name: tensorflow-wk2-service 
Namespace: default 
Labels: name=tensorfLow-worker2 
role=service 
Selector: name=tensorfLow-worker2 
CLusterIP 
10.0.0.150 
<unset> 2222/TCP 
172.170. 322222. 172117.0. 8:2222 
Session Affinity: None 
No events. 


图 17-6 


打开 4 个 终端 ， 分 别 进入 4 个 Pod 当 中 ， 命 令 如 下 : 


kubectl exec -ti tensorflow-ps2-3073558082-3b08h /bin/bash 
kubectl exec -ti tensorflow-ps2-3073558082-4x3j2 /bin/bash 
kubectl exec -ti tensorflow-worker2-3070479207-k6z8f /bin/bash 


kubectl exec -ti tensorflow-worker2-3070479207-6hvsk /bin/bash 


通过 下 面 的 方式 将 mnist_replica.py 分 别 部 署 到 4 个 Pod 中 ， 如 下 : 


curl 
https://raw.githubusercontent.com/tensorflow/tensorflow/master/ 
tensorflow/tools/dist_test/python/mnist_replica.py -o 
mnist_replica. py 


python mnist_replica.py -- 
ps_hosts=172.17.0.16:2222,172.17.0.17:2222 --worker_ 
hosts=172.17.0.3:2222,172.17.0.8:2222 --job_name="ps" 
task_index=0 


python mnist_replica.py -- 
ps_hosts=172.17.0.16:2222,172.17.0.17:2222 --worker_ 
hosts=172.17.0.3:2222,172.17.0.8:2222 --job_name="ps" -- 
task_index=1 


在 计算 服务 器 的 两 个 容器 中 分 别 执行 


python mnist_replica.py -- 
ps_hosts=172.17.0.16:2222,172.17.0.17:2222 --worker_ 
hosts=172.17.0.3:2222,172.17.0.8:2222 --job_name="worker" 
task_index=0 


python mnist_replica.py -- 
ps_hosts=172.17.0.16:2222,172.17.0.17:2222 --worker_ 
hosts=172.17.0.3:2222,172.17.0.8:2222 --job_name="worker" -- 
task_index=1 


SAAT Ha HH 14.6719 A LH R © FRAT 200V0R IK, TAFTA 
(172.17.0.3:2222) 执行 了 144 次 迭代 ， 如 下 : 


job name = worker 

task index = 0 

I tensorflow/core/distributed_runtime/rpc/grpc_channel.cc:200] 
Initialize 

GrpcChannelCache for job ps -> {0 -> localhost:2222} 

I tensorflow/core/distributed_runtime/rpc/grpc_channel.cc:200] 
Initialize GrpcChannel 

Cache for job worker -> {0 -> localhost:2223, 1 -> localhost:2224} 
I tensorflow/core/distributed_runtime/rpc/grpc_server_lib.cc:217] 
Started server 

with target: grpc://localhost : 2223 

Worker ©: Initializing session... 

I tensorflow/core/distributed_runtime/master_session.cc:994] Start 
master session 

0d791a02977e5701 with config: 

device_filters: "/job:ps" 

device_filters: "/job:worker/task:0" 

allow_soft_placement: true 


Worker ©: Session initialization complete. 

Training begins @ 1483516057 .489495 

1483516057 .518419: Worker 0: training step 1 done (global step: 
1483516057 .541053: Worker 0: training step 2 done (global step: 
1483516057.569677: Worker 0: training step 3 done (global step: 
1483516057 .584578: Worker 0: training step 4 done (global step: 
1483516057.646970: Worker 0: training step 5 done (global step: 
TARA 
1483516059.286596: Worker 0: training step 141 done (global step: 
197) 

1483516059.291600: Worker 0: training step 142 done (global step: 
198) 

1483516059.297347: Worker 0: training step 143 done (global step: 
199) 

1483516059.303738: Worker 0: training step 144 done (global step: 
200) 

Training ends @ 1483516059.303808 

Training elapsed time: 1.614513 s 

After 200 training step(s), validation cross entropy = 1235. 


工作 节点 2 (172.17.0.8:2222) 执行 了 56 次 迭代 ， 输 出 如 下 : 


job name = worker 

task index = 1 

I tensorflow/core/distributed_runtime/rpc/grpc_channel.cc:200] 
Initialize GrpcChannel 


Cache for job ps -> {0 -> localhost:2222} 

I tensorflow/core/distributed_runtime/rpc/grpc_channel.cc:200] 
Initialize GrpcChannel 

Cache for job worker -> {0 -> localhost:2223, 1 -> localhost:2224} 
I tensorflow/core/distributed_runtime/rpc/grpc_server_lib.cc:217] 
Started server 

with target: grpc://localhost:2224 

Worker 1: Waiting for session to be initialized... 

I tensorflow/core/distributed_runtime/master_session.cc:994] Start 
master session 

92e671f3ddiffd05 with config: 

device_filters: "/job:ps" 

device_filters: "/job:worker/task:1" 

allow_soft_placement: true 


Worker 1: Session initialization complete. 

Training begins @ 1483516058. 803010 

1483516058 .832164: Worker 1: training step 1 done (global step: 
121) 

1483516058 .844464: Worker 1: training step 2 done (global step: 
123) 

1483516058 .860988: Worker 1: training step 3 done (global step: 
126) 

1483516058.873543: Worker 1: training step 4 done (global step: 
128) 

1483516058.884758: Worker 1: training step 5 done (global step: 
130) 

ce HEK 
1483516059 .152332: Worker 1: training step 52 done (global step: 
176) 

1483516059.167606: Worker 1: training step 53 done (global step: 
178) 

1483516059.177215: Worker 1: training step 54 done (global step: 
180) 

1483516059 .301384: Worker 1: training step 55 done (global step: 
182) 

1483516059 .309557: Worker 1: training step 56 done (global step: 
202) 

Training ends @ 1483516059 .309638 

Training elapsed time: 0.536126 s 

After 200 training step(s), validation cross entropy = 1235.56 


在 这 个 例子 中 ， 更 好 的 方式 是 把 需要 执行 的 源 代码 以 及 训练 数据 
和 测试 数据 放 在 持久 卷 (persistent volume) 中 ， 在 多 个 Pod 间 实现 共 
享 ， 从 而 避免 在 每 一 个 Pod 中 分 别 部 署 。 


对 应 TensorFlow 的 GPU 的 Docker 集 群 部 署 ，Nvidia 官 方 提供 了 
nvidia-docker 的 方式 ， 原 理 主要 是 利用 窒 主 机 上 的 GPU 设 备 ， 将 它 映 喘 
到 容 右 中 。 更 多 与 部 团 相 关 的 内 容 读者 可 参考 
https://github.com/NVIDIA/nvidia-docker 。 


17.2.2 ”其 他 应 用 


训练 好 模型 之 后 可 以 将 它 打包 制作 成 环境 独立 的 镜像 ， 这 样 能 够 
极 大 地 方便 测试 人 员 部 署 一 致 的 环境 ， 也 便于 对 不 同 版 本 的 模型 做 标 
记 、 比 较 不 同 模型 的 准确 率 ， 从 整体 上 降低 测试 、 部 署 上 线 等 的 工作 
复杂 性 ， 具 有 很 大 的 优势 。 


17.3 ”小结 


将 Kubernete 与 TensorFlow 结 合 ， 借 助 Kubernetes 提 供 的 稳定 计算 环 
境 ， 对 TensorFlow 集 群 进行 便捷 的 管理 ， 降 低 了 搭建 大 规模 深度 学 习 平 
台 的 难度 ， 这 也 是 社区 非常 推崇 的 部 署 方案 。 本 章 主要 讲述 了 用 
Kubernetes 管 理 TensorFlow 集 群 的 方法 ， 以 及 在 Kubernetes 上 部 署 分 布 式 
TensorFlow 的 方式 ， 最 后 采用 MNIST 的 分 布 式 例子 进行 了 实践 。 


[1] https://kubernetes.io/ 
[2] https://cloud.google.com/ 
[3] https:/www.virtualbox.org/ 


[4] https://hub.docker.com/r/tensorflow/tensorflow/ 


第 18 章 ”TensorFlowOnSpark 


在 第 14 章 我 们 讲 了 TensorFlow 的 分 布 式 运行 ， 在 第 17 章 又 介绍 了 使 
用 Kubernetes 集 群 对 TensorFlow 节 点 进行 调度 、 监 控 和 失败 重启 等 功 
能 。 我 们 知道 ，Hadoop 生 态 的 大 数据 系统 一 般 可 以 分 为 Yam、HDFS 和 
MapReduce 计 算 框 架 ，TensorFlow 本 和 丑 的 分 布 式 就 相当 于 MapReduce 计 
算 框架 部 分 ， 而 Kubernetes 束 相当 于 Yarn 调 度 系统 。 本 章 要 讲 的 
TensorFlowOnSpatk 是 利用 远程 直接 内 存 访问 (Remote Direct Memory 
Access, RDMA) 解决 了 存储 功能 和 调度 ， 实 现 了 深度 学 习 和 大 数据 的 


融合 。 


TensorFlowOnSpark (TFoS) 是 雅虎 推出 的 开源 项 目 中 ， 支 持 使 
用 Apache Spark 集 群 进行 分 布 式 TensorFlow 训 练 和 预测 。 其 实 ， 
TensorFlow 的 程序 并 不 能 直接 作为 Spark 的 程序 运行 ， 
TensorFlowOnSpark 提 供 了 一 个 程序 来 进行 桥接 ， 本 质 上 是 每 个 Spark 
Executor 局 动 一 个 对 应 的 TensorFlow 进 程 ， 然 后 通过 远程 进程 通信 
(RPC) 进行 交互 。 


18.1 TensorFlowOnSpark 的 架构 |2! 
要 把 一 个 训练 程序 改 到 使 用 Spark 的 集群 上 运行 ， 在 运用 


TensorFlowOnSpatrk 后 ， 就 只 需要 改 非常 少量 的 代码 (官方 认为 不 到 10 
ÍT) 。TensorFlowOnSpark 通 过 下 面 的 步骤 来 管理 Spark 集 群 。 


(1) HA: 为 在 Executor 上 执行 的 每 个 TensorFlow 进 程 保留 一 个 端 
口 ， 并 局 动 数据 消 忆 的 监听 器。 


(2) 启动 : 在 Executor 上 启动 Tensorflow 主 函数 。 


(3) 数据 获取 ， 这 里 提供 了 两 种 不 同 的 模式 来 提取 训练 数据 和 测 
试 数据 。 


e Readers 和 QueueRunners: 利用 TensorFlow 的 Readers 和 
QueueRunners 机 制 直接 从 HDFS 文 件 中 读 取 数据 文件 。Spark 不 涉及 
访问 数据 。 

。 Feeding: 将 Spark RDD 数 据 发 送 到 TensorFlow 下 点 ， 随 后 的 数据 将 
通过 feed_dict 机 制 传 入 TensorFlow 图 中 。 


(4) 关闭 : 关闭 Executor 上 的 TensorFlow 计 算 节 点 和 参数 服务 节 


TensorFlowOnSpark 系 统 的 架构 如 图 18-1 所 示 。 


| 
| / 
| / 


$ 


Spark Executor 


; TensorFlow Alg TensorFlow Alg 
参数 服务 器 
F TensorFlow TensorFlow 
Core 


HDFS 上 的 数据 集 


图 18-1 [3] 


TFoS 曾 做 过 一 个 图 像 分 类 的 实验 ， 结 果 非 常 令 人 鼓舞 。 以 同一 准 
确 度 作为 评判 标准 ， 准 确 度 达 到 0.730， 单 计算 节点 工作 需要 46 小 时 ， 
双 计 算 节 点 需要 22.5 小 时 ，4 计 算 市 点 需要 13 小 时 ，8 计 算 厄 点 需要 7.5 
小 时 ， 如 图 18-2 所 示 。 因 此 ， 实 现 了 接近 模型 训练 的 近 线 性 可 扩展 性 。 
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下 面 我 们 就 以 MNIST 数 据 集 为 例 ， 看 看 如 何在 Spark 上 进行 部 署 、 
训练 以 及 预测 。 


18.2 TensorFlowOnSpark 在 MNIST 上 的 实践 [5] 


采用 Standalone 模 式 的 Spark 集 群 ， 仅 需要 一 台 计 算 机 吏 够 ， 下 面 以 
此 为 例 看 看 如 何 应 用 TensorFlowOnSpark。 


首 移 ， 安 装 Spark 和 Hadoop， 这 里 所 用 的 计算 机 的 操作 系统 是 OS X 
10.10.5， 并 且 已 经 部 署 好 了 Java 1.8.0 的 JDK， 从 
http://spark.apache.org/downloads.html 下 载 Spark， 这 里 选用 2.1.0 版 本 ， 
}\http://hadoop.apache.org/#Download+Hadoop 下 载 Hadoop， 这 里 选用 
2.7.3 版 本 。 在 2017 年 3 月 ， 这 个 框架 对 TensorFlow 0.12.1 版 本 的 文 持 较 
好 ， 但 对 TensorFlow 1.0 版 本 尚 有 些 问题 ， 还 需要 读者 自己 适 配 好 。 


安 半 后， 修改 必要 的 配置 文件 ， 设 置 环境 变量 后 ， 局 动 Hadoop: 


$HADOOP_HOME/sbin/start-all.sh 


然后 ， 检 出 TensorFlowOnSpark 源 代码 ， 如 下 : 


git clone --recurse-submodules 
https://github.com/yahoo/TensorFlowOnSpark.git 
cd TensorFlowOnSpark 


git submodule init 
git submodule update --force 
git submodule foreach --recursive git clean -dfx 


接 春 ， 将 源 代 码 部 分 打包 ， 供 提交 任务 时 使 用 ， 如 下 : 


cd TensorFlowOnSpark/src 
zip -r ../tfspark.zip * 


设置 TensorFlowOnSpark 根 目录 的 环境 变量 ， 接 下 来 会 用 到 


cd TensorFlowOnSpark 


export TFoS_HOME=$( pwd) 


接着 ， 启 动 Spark 主 节 点 (master) 


${SPARK_HOME}/sbin/start-master.sh 


配置 两 个 工作 节点 (worker) KPj, ifictmaster-spark-URLA Ei 


export MASTER=spark://$(hostname):7077 

export SPARK_WORKER_INSTANCES=2 

export CORES_PER_WORKER=1 

export 
TOTAL_CORES=$((${CORES_PER_WORKER}*${SPARK_WORKER_INSTANCES}) ) 
${SPARK_HOME}/sbin/start-Sslave.sh -c $CORES_PER_WORKER -m 3G 
${MASTER} 


接 下 来 ， 提 交 任 务 ， 将 MNIST 的 zip 文 件 转换 为 HDFS 上 的 RDD 数 


${SPARK_HOME}/bin/spark-submit \ 

--master ${MASTER} --conf spark.ui.port=4048 --verbose \ 
${TFOS_HOME}/examples/mnist/mnist_data_setup.py \ 
--output examples/mnist/csv \ 

--format csv 


运行 完毕 后 ， 可 以 通过 如 下 命令 看 到 处 理 过 的 数据 集 : 


hadoop fs -ls hdfs://localhost :9000/user/jiaxuan/examples/mnist/csv 
Found 2 items 
drwxr-xr-x - jiaxuan supergroup © 2017-03-10 04:27 


hdfs://localhost :9000/user/jiaxuan/examples/mnist/csv/test 
drwxr -xr-x - Jiaxuan supergroup © 2017-03-10 04:27 
hdfs://localhost :9000/user/jiaxuan/examples/mnist/csv/train 


可 以 查看 保存 后 的 图 片 和 标记 向 量 ， 分 别 共有 10 份 : 


hadoop fs -ls 
hdfs://localhost:9000/user/jiaxuan/examples/mnist/csv/train/labels 


-rw-r--r-- 1 jiaxuan supergroup © 2017-03-10 04:27 
hdfs://localhost:9000/user/jiaxuan/examples/mnist/csv/train/labels/ 
_SUCCESS 

-rw-r--r-- 1 jiaxuan supergroup 204800 2017-03-10 04:27 
hdfs://localhost :9000/user/jiaxuan/examples/mnist/csv/train/labels/ 
part-00000 

-rw-r--r-- 1 jiaxuan supergroup 245760 2017-03-10 04:27 
hdfs://localhost :9000/user/jiaxuan/examples/mnist/csv/train/labels/ 
part-00001 

-rw-r--r-- 1 jiaxuan supergroup 245760 2017-03-10 04:27 
hdfs://localhost :9000/user/jiaxuan/examples/mnist/csv/train/labels/ 
part-00002 

-rw-r--r-- 1 jiaxuan supergroup 245760 2017-03-10 04:27 
hdfs://localhost :9000/user/jiaxuan/examples/mnist/csv/train/labels/ 
part-00003 

-rw-r--r-- 1 jiaxuan supergroup 245760 2017-03-10 04:27 
hdfs://localhost :9000/user/jiaxuan/examples/mnist/csv/train/labels/ 
part-00004 

-rw-r--r-- 1 jiaxuan supergroup 245760 2017-03-10 04:27 
hdfs://localhost :9000/user/jiaxuan/examples/mnist/csv/train/labels/ 
part-00005 

-rw-r--r-- 1 jiaxuan supergroup 245760 2017-03-10 04:27 
hdfs://localhost :9000/user/jiaxuan/examples/mnist/csv/train/labels/ 
part-00006 

-rw-r--r-- 1 jiaxuan supergroup 245760 2017-03-10 04:27 
hdfs://localhost :9000/user/jiaxuan/examples/mnist/csv/train/labels/ 
part-00007 

-rw-r--r-- 1 jiaxuan supergroup 245760 2017-03-10 04:27 
hdfs://localhost :9000/user/jiaxuan/examples/mnist/csv/train/labels/ 
part-00008 

-rw-r--r-- 1 jiaxuan supergroup 229120 2017-03-10 04:27 
hdfs://localhost :9000/user/jiaxuan/examples/mnist/csv/train/labels/ 
part-00009 


MNIST 训 练 集 共有 60 000 条 数据 ， 有 10 个 文件 ， 每 个 文件 有 6 000 
条 数据 左右 ， 里 面 存 储 的 格式 和 标记 向 量 格式 如 图 18-3 所 示 。 
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图 18-4 


了 


这 里 ， 我 们 主要 是 把 训练 集 和 测试 集 分 别 保存 成 RDD 数 据 ， 上 有 具体 
代码 参见 ${TFoS_HOME} examples/mnist/mnist_data_setup.py ° 关键 代 
码 如 下 : 


\ 


writeMNIST(sc, "mnist/train-images-idx3-ubyte.gz", "mnist/train- 
labels-idx1- 

ubyte.gz", args.output + "/train", args.format, 
args.num_partitions) 

writeMNIST(sc, "mnist/t10k-images-idx3-ubyte.gz", "mnist/t10k- 
labels-idx1- 

ubyte.gz", args.output + "/test", args.format, args.num_partitions) 


调用 writeMNIST 函 数 ， 将 RDDs 保 存 为 特定 格式 : 


def writeMNIST(sc, input_images, input_labels, output, format, 
num_partitions): 
"0"" 将 MNIST 图 像 和 标记 向 量 写 入 HDFS 上 1""" 
with open(input_images, 'rb') as f: 
images = numpy.array(mnist.extract_images(fF) ) 


with open(input_labels, 'rb') as f: 
labels = numpy.array(mnist.extract_labels(f, one_hot=True) ) 


shape = images.shape 
print("images.shape: {0}".format(shape) ) # 60000 x 28 x 
28 


print("labels.shape: {0}".format(labels.shape)) # 60000 x 10 


imageRDD = sc.parallelize(images.reshape(shape[0], shape[1] * 
shape[2]), 
num_partitions) 
labelRDD = sc.parallelize(labels, num_partitions) 


output_images 


output + "/images" 
output_labels 


output + "/labels" 


# 将 RDDs 保 存 为 特定 格式 


if format == "pickle": 
imageRDD. saveAsPickleFile(output_images) 
labelRDD. saveAsPickleFile(output_labels) 

elif format == "csv": 
imageRDD.map(toCSV).saveAsTextFile(output_images ) 
labe1lRDD.map(toCSV).saveAsTextFile(output_labels) 


接着 ， 提 区 训练 任务 ， 开 始 训练 ， 命 令 如 下 ， 我 们 最 终 在 HDFS 上 
生成 了 mnist_model: 


${SPARK_HOME}/bin/spark-submit \ 

--master ${MASTER} \ 

--py-files 

${TFOS_HOME}/tfspark.zip, ${TFOS_HOME}/examples/mnist/spark/mnist_di 
st.py \ 

--conf spark.cores.max=${TOTAL_CORES} \ 

--conf spark.task.cpus=${CORES_PER_WORKER} \ 

--conf spark.executorEnv. JAVA_HOME="$JAVA_HOME" \ 


${TFOS_HOME}/examples/mnist/spark/mnist_spark.py \ 
--cluster_size ${SPARK_WORKER_INSTANCES} \ 
--images examples/mnist/csv/train/images \ 
--labels examples/mnist/csv/train/labels \ 
--format csv \ 

--mode train \ 

--model mnist_model 


这 里 的 mnist_dist.py 主 要 是 构建 TensorFlow 分 布 式 任务 ， 其 中 定义 
了 分 布 式 任务 的 主 函 数 ， 也 束 是 局 动 TensorFlow 的 主 函 数 map_fun， 采 
用 的 数据 获取 方式 是 Feeding。 这 里 用 到 的 TensorFlowOnSpark 代 码 主要 
是 获取 TensorFlow 集 群 和 服务 器 实例 ， 如 下 : 


cluster, server = TFNode.start_cluster_server(ctx, 1, args.rdma) 


其 中 TFNode 调 用 我 们 刚才 打包 好 的 tfspark.zip 中 的 TFNode.py 文 
件 。 


mnist_spark.py 文 件 是 我 们 训练 的 主 程序 ， 体 现 了 
TensorFlowOnSpark 的 部 署 步骤 ， 如 下 : 


sc = SparkContext(conf=SparkConf().setAppName("mnist_spark") ) 
executors = sc._conf.get("spark.executor.instances" ) 
num_executors = int(executors) if executors is not None else 1 


cluster = TFCluster.reserve(sc, args.cluster_size, num_ps, 
args.tensorboard, 

TFCluster.InputMode.SPARK) #1. 为 在 Executor 执 行 上 的 每 个 TensorFLow 进 程 他 
留 一 个 端口 

cluster.start(mnist_dist.map_fun, args) # 2. 启 动 Tensorf1low 主 函数 


if args.mode == "train": 
cluster.train(dataRDD, args.epochs) # 3. 训 练 

else: 
labelRDD = cluster.inference(dataRDD) # 预测 
labelRDD.saveAsTextFile(args.output ) 

cluster.shutdown() # 4. 关 闭 Executor 上 的 TensorFlow 计 算 节 点 和 参数 服务 节点 


${SPARK_HOME}/bin/spark-submit \ 
--master ${MASTER} \ 


--py-files 

${TFOS_HOME}/tfspark.zip, ${TFOS_HOME}/examples/mnist/spark/mnist_di 
st.py \ 

--conf spark.cores.max=${TOTAL_CORES} \ 

--conf spark.task.cpus=${CORES_PER_WORKER} \ 
--conf spark.executorEnv. JAVA_HOME="$JAVA_HOME" \ 
${TFOS_HOME}/examples/mnist/spark/mnist_spark.py \ 
--cluster_size ${SPARK_WORKER_INSTANCES} \ 
--images examples/mnist/csv/test/images \ 

--labels examples/mnist/csv/test/labels \ 

--mode inference \ 

--format csv \ 

--model mnist_model \ 

--output predictions 


最 终 输 出 的 预测 文件 如 下 : 


2017-03-10T23:29:17.009563 Label: 7, Prediction: 7 


2017-03-10T23:29:17.009677 Label: 2, Prediction: 2 


ya 


其 实 ， 除 了 单机 版 的 Standalone 模 式 外 ， 官 方 网 站 上 还 介绍 了 在 
Amazon EC2 上 运行 以 及 在 Hadoop 集 群 上 采用 YARN 模 式 运 行 ， 请 读者 


18.3 ”小结 


本 章 主 要 介绍 了 雅虎 公司 的 开源 工具 TensorFlowOnSpark 的 架构 及 
使 用 。 读 者 只 需要 改 很 少 的 代码 就 可 以 将 TensorFlow 和 Spark 结 合 ， 真 
正 实现 大 数据 的 深度 学 习 训练 。 


[1] https://github.com/yahoo/TensorFlowOnSpark 


[2] AAA https://github.com/yahoo/TensorFlowOnSpark ° 


[3] ”本 图 参考 http://yahoohadoop.tumblr.com/post/157196317141/open- 


sourcing-tensorflowonspark-distributed-deep ° 


[4] ”本 图 3 引 目 http://yahoohadoop.tumblr.com/post/157196317141/open- 


sourcing-tensorflowonspark-distributed-deep 。 


[5] AP RBIS Ss 
https://github.com/yahoo/TensorFlowOnSpark/wiki/GetStarted_standalone 


O° 


第 19 章 ”TensorEFlow 移 动 端 应 用 


深度 学 习 在 声 频 、 图 像 、 视 频 处 理 上 已 经 取得 了 令 人 印象 深刻 的 
进步 ， 但 它 通常 运行 在 功能 强大 的 计算 机 上 ， 如 果 需 要 运行 在 手机 等 
移动 设备 或 者 树 答 派 等 姐 入 式 平台 上 呢 ? 


TensorFlow 目 前 是 最 有 竞争 力 成 为 未 来 主流 的 深度 学 习 框架 ， 谷 歌 
公司 不 仅 为 自己 研发 的 操作 系统 一 一 Android 提 供 了 TensorFlow 移 动 端 
文 持 ， 而 且 对 i0S 和 树 每 派 也 提供 了 移动 端 文 持 。 


19.1 移动 端 应 用 原理 


在 移动 端 或 者 幅 入 式 设备 上 应 用 深度 学 习 ， 有 两 种 方式 : 一 是 将 
RAST EB iA ae, ARG ae ISAK, BARS eel hy; 二 
EERSTE o — ORL, KARARTAN, thie TEPC LUIS: 
好 一 个 模型 ， 然 后 将 其 放 在 移动 端 上 进行 预测 。 


使 用 本 地 运行 模型 原因 在 于 ， 站 和 完 ， 同 服务 端 请 求 数据 的 方式 可 
行 性 差 。 移 动 端的 资源 〈 如 网 络 、CPU、 内 存 资源 ) 是 很 稀缺 的 。 例 
如 ， 在 网 络 连 接 不 民 或 者 丢失 的 情况 下 ， 癌 服务 端 发 送 连续 的 数据 的 
代价 束 变 得 非常 高 郧 。 其 次 ， 运 行 在 本 地 的 实时 性 更 好 。 但 问题 是 ， 
一 个 模型 大 小 动 辑 儿 百 兆 ， 且 不 说 把 它 安 装 到 移动 端 需 要 多 少 网 络 资 
源 ， 就 是 每 次 预测 时 需要 的 内 存 资源 也 是 很 多 的 。 那 么 ， 要 在 性 能 相 
对 较 弱 的 移动 /嵌入 式 设 备 (如 没有 加 速 器 的 ARM CPU) 上 高 效 运行 一 


个 CNN， 应 该 怎么 做 呢 ? 这 就 衍生 出 了 很 多 加 速 计算 的 方向 ， 其 中 重 
要 的 两 个 方向 是 对 内 存 空间 和 速度 的 优化 。 采 用 的 方式 一 是 精简 模 

型 ， 既 可 以 节省 内 存 空间 ， 也 可 以 加 快 计算 速度 ， 二 是 加 快 框架 的 执 
行 速度 ， 影 响 框架 执行 速度 主要 有 两 方面 的 因素 ， 即 模型 的 复杂 度 和 
每 一 步 的 计算 速度 。 


精简 模型 主要 是 使 用 更 低 的 权重 精度 ， 如 量化 (quantization) 或 
EL BYA (weight pruning) 。 剪 枝 是 指 均 小 权重 的 连接 ， 把 所 有 权 值 
连接 低 于 一 个 国 值 的 连接 从 网 络 里 移 除 。 


而 加 速 框架 的 执行 速度 一 般 不 会 影响 模型 的 参数 ， 是 试图 优化 矩 
阵 之 间 的 通用 乘法 (GEMM) 运算 ， 因 此 会 同时 影响 卷 积 层 ( 卷 积 层 
的 计算 是 先 对 数据 进行 im2col 趾 运 算 ， 再 进行 GEMM 运 算 ) 和 全 连接 
层 。 


下 面 我 们 就 分 别 来 介绍 。 
19.1.1 量化 四 


量化 (quantitative) ， 这 里 不 是 指 金融 上 的 量化 交易 ， 而 是 指 离散 
化 。 量 化 是 一 个 总 括 术 语 ， 是 用 比 32 位 浮 点 数 更 少 的 空间 来 存储 和 运 
行 模 型 ， 并 且 TensorFlow 量 化 的 实现 屏蔽 了 存储 和 运行 细 广 。 


神经 网 络 训练 时 要 求 速度 和 准确 率 ， 训 | 练 通常 在 GPU 上 进行 ， 所 
以 使 用 浮 点 数 影响 不 大 。 但 是 在 预测 阶段 ， 使 用 浮 点 数 会 影响 速度 。 
量化 可 以 在 加 快速 度 的 同时 ， 保 持 较 高 的 精度 。 


量化 网 络 的 动机 主要 有 两 个 。 最 初 的 动机 是 减 小 模型 文件 的 大 
小 。 模 型 文件 往往 占据 很 大 的 磁 副 空间 ， 例 如 ，6.6 太 中 介绍 的 模型 ， 
每 个 模型 都 接近 200 MB， 模 型 中 存储 的 是 分 布 在 大 量 层 中 的 权 值 。 在 
存储 模型 的 时 候 用 8 位 整数 ， 模 型 大 小 可 以 缩小 为 原来 32 位 的 25% 左 
右 。 在 加 载 模型 后 运算 时 转换 回 32 位 浮 点 数 ， 这 样 已 有 的 浮 点 计算 代 
码 无 需 改动 即 可 正 稍 运行 。 


量化 的 另 一 个 动机 是 降低 预测 过 程 需要 的 计算 资源 。 这 在 藤 入 式 
和 移动 端 非常 有 意义 ， 能 够 更 快 地 运行 模型 ， 功 耗 更 低 。 从 体系 架构 
的 角度 来 说 ，8 位 的 访问 次 数 要 比 32 位 多 ， 在 读 取 8 位 整数 时 只 需要 32 
位 浮 点 数 的 1/4 的 内 存 带宽 ， 例 如 ， 在 32 位 内 存 带 宽 的 情况 下 ，8 位 整数 
可 以 一 次 访问 4 个 ，32 位 浮 点 数 只 能 1 次 访问 1 个 。 而 且 使 用 SIMD 指 令 
(19.2 节 会 加 速 介绍 该 指令 集 ) ， 可 以 在 一 个 时 钟 周期 里 实现 更 多 的 计 
算 。 另 一 方面 ，8 位 对 舱 入 式 设 备 的 利用 更 充分 ， 因 为 很 多 先入 式 必 乒 
都 是 8 位 、16 位 的 ， 如 单片机 、 数 字 信 号 处 理 器 (DSP) ，8 位 可 以 
充分 利用 这 些 。 


此 外 ， 神 经 网 络 对 于 噪声 的 健壮 性 很 强 ， 因 为 量化 会 带 来 精度 损 
R (这 种 损失 可 以 认为 是 一 种 噪声 ) ， 并 不 会 危害 到 整体 结果 的 准确 
度 。 


那 能 否 用 低 精 度 格式 来 直接 训练 呢 ? 答案 是 ， 大 多 数 情况 下 是 不 
能 的 。 因 为 在 训练 时 ， 尽 管 前 向 传播 能 够 顺利 进行 ， 但 往往 反 癌 传 播 
中 需要 计算 梯度 。 例 如 ， 梯 度 是 0.2， 使 用 浮 点 数 可 以 很 好 地 表示 ， 而 
整数 就 不 能 很 好 地 表示 ， 这 会 导致 梯度 消失 。 因 此 需要 使 用 高 于 8 位 的 
值 来 计算 梯度 。 因 此 ， 正 如 在 本 节 一 开始 介绍 的 那样 ， 在 移动 端 训练 


模型 的 思路 往往 是 ， 在 PC 上 正常 训练 好 浮 点 数 模型 ， 然 后 直接 将 模型 
转换 成 8 位 ， 移 动 端 是 使 用 8 位 的 模型 来 执行 预测 的 过 程 。 


下 面 我 们 就 以 8 位 精度 的 存储 和 计算 来 说 明 。 
1. 量化 示例 


我 们 举 个 将 GoogleNet 模 型 转换 成 8 位 模型 的 例子 ， 看 看 模型 的 大 
小 减 小 多 少 ， 以 及 用 它 预 测 的 结果 怎么 样 。 


从 官方 网 站 上 下 载 DI 训练 好 的 GoogleNet 模 型 ， 解 压 后 ， 放 在 /tmp 
目录 下 ， 然 后 执行 : 


bazel build tensorflow/tools/quantization:quantize_graph 
bazel-bin/tensorflow/tools/quantization/quantize_graph \ 


--input=/tmp/classify_image_graph_def.pb \ 
--output_node_names="softmax" --output=/tmp/quantized_graph.pb \ 
--mode=eightbit 


生成 量化 后 的 模型 quantized_graph.pb 大 小 只 有 23 MB， 是 原来 模型 
classify_image_graph_def.pb (91 MB) 的 /4° 它 的 预测 效果 怎么 样 呢 ? 


bazel build tensorflow/examples/label_image:label_image 
bazel-bin/tensorflow/examples/label_image/label_image \ 
--image=/tmp/cropped_panda.jpg \ 
--graph=/tmp/quantized_graph.pb \ 
--labels=/tmp/imagenet_synset_to_human_label_map.txt \ 
--input_width=299 \ 


--input_height=299 \ 
--input_mean=128 \ 
--input_std=128 \ 
--input_layer="Mul:0" \ 
--output_layer="softmax:0" 


运行 结果 如 图 19-1 所 示 ， 可 以 看 出 8 位 模型 预测 的 结果 也 很 好 。 


图 19-1 


2. 量化 过 程 的 实现 


TensorFlow 的 量化 是 通过 将 预测 的 操作 转换 成 等 价 的 8 位 版 本 的 操 
作 来 实现 的 。 量 化 操作 过 程 如 图 19-2 所 示 。 


图 19-2 中 左 侧 是 原始 的 Relu 操 作 ， 输 入 和 输出 均 是 浮 点 数 。 右 侧 是 
量化 后 的 Relu 操 作 ， 先 根据 输入 的 浮 点 数 计算 最 大 值 和 最 小 值 ， 然 后 
进入 量化 (Quantize) 操作 将 输入 数据 转换 成 8 位 。 一 般 来 讲 ， 在 进入 
量化 的 Relu (QuantizedRelu) 处 理 后 ， 为 了 保证 输出 层 的 输入 数据 的 
准确 性 ， 还 需要 进行 反 量 化 (Dequantize) 的 操作 ， 将 权重 再 转 回 32 位 
精度 ， 来 保证 预测 的 准确 性 。 也 就 是 整个 模型 的 前 向 传播 采用 8 位 整数 
运行 ， 在 最 后 一 层 之 前 加 上 一 个 反 量化 技 ， 把 8 位 转 回 32 位 作为 输出 层 
的 输入 。 


实际 上 ， 我 们 会 在 每 个 量化 操作 (如 QuantizedMatMul、 
QuantizedRelu 等 ) 的 后 面 执行 反 量化 操作 (Dequantize) ， 如 图 19-3 左 
侧 所 示 ， 在 QuantizedMatMul 后 执行 反 量 化 和 量化 操作 可 以 相互 抵消 。 
因此 ， 如 图 19-3 右 侧 所 示 ， 在 输出 层 之 前 做 一 次 反 量 化 操作 束 可 以 了 。 
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图 19-3 


3. 量化 数据 的 表示 


将 浮 点 数 转 换 为 8 位 的 表示 实际 上 是 一 个 压缩 问题 。 实 际 上 ， 权 重 
和 经 过 激活 函数 处 理 过 的 上 一 层 的 输出 “也 就 是 下 一 层 的 输入 ) 实际 
上 是 分 布 在 一 个 范围 内 的 值 。 量 化 的 过 程 一 般 是 找 出 最 大 值 和 最 小 值 
后 ， 将 分 布 在 其 中 的 浮 点 数 认为 是 线性 分 布 ， 做 线性 扩展 。 因 此 ， 假 
设 最 小 值 是 -10.0f， 最 大 值 是 30.0f， 那 量化 后 的 结果 如 表 19-1 所 示 。 


表 19-1 


量化 后 的 值 原始 的 浮 点 数 


19.1.2 ”优化 矩阵 乘法 运算 


谷歌 公司 开源 了 一 个 小 型 独立 的 低 精 度 通 用 矩阵 乘法 (General 
Matrix to Matrix Multiplication, GEMM) 库 


19.2 iOS 系 统 实践 


本 刷 移 带领 读者 编译 完成 在 iOS 系 统 上 需要 的 TensorFlow 程 序 ， 然 
后 真实 地 编译 一 个 能 在 Xcode 模拟 妖 中 运行 的 图 厂 识 别 模型 ， 随 后 讲解 
使 用 自己 的 数据 ， 如 何在 PC 端 训 练 好 一 个 模型 ， 经 过 3 道 工 序 的 模型 优 
化 后 ， 编 译 成 i0S 支 持 的 模型 ， 并 生成 0S 工程 文件 安装 在 iPhone 上 运 
行 。 


19.2.1 ”环境 准备 


需要 运行 在 操作 系统 Mac OS X 上 的 集成 开发 工具 Xcode，7.3 
( 含 ) 以 上 版 本 即 可 。 图 19-4 是 笔者 所 用 的 版 本 。 


gemmlowp (1 ° 


Xcode 


Version 8.3.1 (8E1000a) 


Acknowledgments License Agreement 


图 19-4 


随后 ， 需 要 编译 包含 TensorFlow 核 心 的 静态 库 ， 在 tensorflow-1.1.0 
目录 下 运行 : 


tensorflow/contrib/makefile/download_dependencies.sh 


运行 时 会 把 相应 的 依赖 库 下 载 到 
tensorflow/contrib/makefile/downloads/ Ex F: 


eigen # C++ 开源 矩阵 计算 
gemmlowp # 小 型 独立 的 低 精度 通用 矩阵 乘法 (GEMM) 库 


protobuf # 谷歌 开源 的 数据 交换 格式 协议 


k= 
= 
— googletest # “谷歌 开 涯 的 C++ 测试 框架 
= 
L— re2 # 谷歌 开源 的 正则 表达 式 库 


19.2.2 ”编译 演示 程序 并 运行 


在 tensorflow-1.1.0 目 录 下 运行 : 


tensorflow/contrib/makefile/build_ all ios.sh 


经 过 编译 后 会 生成 一 个 静 仿 库 ， 位 于 
tensorflow/contrib/makefile/gen/lib 下 ， 如 下 : 
ios_ARM64 


ios _ARMV7 
ios_ARMV7S 


ios_ 1386 
ios X86_64 
libtensorflow-core.a 


这 时 就 可 以 在 Xcode 的 模拟 器 上 以 及 iOS 设 备 上 运行 App 的 预测 示 
例 了 。 


在 TensorFlow 的 iOS 示 例 中， 共有 3 个 目录 ， 代 表 3 个 示例 ， 其 中 
benchmark 目 录 是 预测 的 基准 示例 ，simple 目 录 是 图 片 的 预测 示例 ， 
camera 有 目录 是 视频 流 实 时 预测 示例 。 


从 官方 网 站 [61 EB Inception V1 模型 ， 这 是 在 ImageNet 上 训练 好 
的 能 识别 1000 类 图 片 的 识别 模型 。 


把 解压 后 的 Inception V1 模型 分 别 复制 到 benchmark、simple ` 
camera 下 的 data 目 录 中 ， 分 别 进 入 这 3 个 目录 ， 运 行 目 录 下 后 级 名 为 
xcodeproj 的 文件 。 如 图 19-5 所 示 ， 进 入 simple 目 杂 中 运行 。 


> Simple 


-rw-r--r-- 
-rw-r--r-- 
-rw-r--r-- 
-rw-r--r-- 
-rw-r--r-- 


AppDelegate.h 
AppDelegate.mm 
RunModel-Info.plist 
RunModelLViewControLler.h 
RunModelViewController .mm 
RunModelViewController.xib 
data 

10s_image_load.h 
ios_image_Load.mm 

main .mm 
tf_ios_makefile_exampLe.xcodeproj 


Lijiaxuan 
Lijiaxuan 
Lijiaxuan 
Lijiaxuan 
lijiaxuan 


drwxr-xr-x 
-rw-r--r-- 
-rw-r--r-- 
-fw-P--P-- 
drwxr-xr-x@ 


Lijiaxuan 
lijiaxuan 
Lijiaxuan 
Lijiaxuan 
Lijiaxuan 


FHA HAHAHAHA AAA 


1 
aE 
1 
1 
1 
-rw-r--r-- 1 Lijiaxuan 
6 
1 
1 
1 
5 


图 19-5 


这 个 程序 识别 的 图 像 是 我 的 一 张 书包 照片 (如 图 19-6 所 示 ) ， 将 它 
放 在 tensorflow/contrib/ ios_examples/simple/data 目 录 下 ， 并 命名 为 
grace_hopper.jpg ° 


图 19-6 


如 图 19-7 所 示 ， 选 择 iPhone 7 Plus 模拟 需 ， 并 点 击 左 上 角 运 行 标 
me nial ， 模 拟 器 的 页 面 会 出 现 一 个 “Run Model” 按 钮 ， 每 单 击 
一 次 按钮 就 进行 一 次 预测 ， 预 测 结果 见 Xcode 的 控制 台 


Y A tt Jos makefile example 18 issues a 

Y A Value Conversion Issue 
¥ À Implicit conversion loses integer precision: size_t’ (aka 
long’) to ‘int 

ape. 

@ in file included from /Users/lijiaxuan/Documents/ttt/tt1.0/ 
tensortlow/contrib/ios_examples/simple/RunModelView 
Controller, mm:28: 

@ in file included from /Users/lijiaxuan/Documents/ttt/tt1.0/ 
tensorfiow/contribjios_examples/simpley.....-/-f 
tensorflow/core/framework/op_kernel.h:26: 


No Editor 
@ in file includes from /Users\iijiaxuan/Documents/ttt/tf1.0/ 
tensorflow/contrib/ios_examples/simple/.,/../../-/ 
tensorflow/core/{ramework/function.h:20: 
@ in file included from /Usersilijiaxuan/Documents/ttt/tf1.0/ 
tensorflow/contrib/ios examples/simple)../.f.fof 
tensorflow/core/framework/attr_value util.h:22: 
Implicit conversion loses integer precision: ‘size_t! (aka 
= iPhone 7 Plus ~ iOS 10.3 (14E269) 


Usersitiiaxuan/Library/Developer! 
CoreSimulator/Devices/ = 1 
46D78B03-58ED-47CE-8380- or 


St 2017-04-19 21:23:32.747138: W tensorflow/core/platform/cpu_feature_guard.ce:45] The TensorFlow library wasn't compiled to use SSE4.1 instructions, but these are available on your machine 
Ye AN and could speed up CPU computations. 
2017-04-19 21:23:32.747416: W tensorflow/core/platform/cpu_feature_guard.cc:45] The TensorFlow library wasn't compiled to use SSE4.2 instructions, but these are available on your machine 


and could speed up CPU computations. 
2017-04-19 21:23:32.747506: W tensorflow/core/platform/cpu_feature_guard.cc:45] The TensorFlow library wasn't compiled to use AVX instructions, but these are available on your machine and 
could speed up CPU computations. 

2017-04-19 21:23:32.747827: W tensorflow/core/platform/cpu_feature_quard.cc:45] The TensorFlow library wasn't compiled to use AVX2 instructions, but these are 
and could spe CPU computations. 

2017-04-19 21:23:32.747975: W tensorflow/core/platform/cpu_feature_guard. 
gould speed up CPU computations, 

: I /Users/lijiaxuan/Documents/ttt/tf1. 


ble on your machine 


lable on your machine and 


145] The TensorFlow library wasn't compiled to use FMA instructions, but these are 


1e/RunModelViewController.mm:149] Session created. 


ensorflow/contrib/ios_examples/s: 


5 I /Users/lijiaxuan/Documents/ttt/tf: \sorflow/contrib/ios_examples/simple/RunModelViewController.mm:256] Predictions: 847 0.754 backpack < 


图 19-7 


可 以 看 出 ， 识 别 结果 背包 (backpack) 的 概率 是 0.754， 第 二 个 预 
测 结果 是 邮 袋 (mailbag) ， 概 率 是 0.191。 
19.2.3 ”上 自 定 义 模 型 的 编译 及 运行 


如 有 条 我 们 想 要 训练 目 己 的 模型 在 手机 端 做 预测 ， 该 如 何 做 呢 ? 
里 我 们 假设 想 在 手机 上 有 一 个 实时 花 开 识别 模型 ， 当 打开 App 时 ， 摄 像 
头 对 准 某 束 花 ，App 立 刻 告诉 我 这 束 花 的 品种 。 


我 们 从 官方 网 站 下 载 花 卉 数据 外 。 解 压 放 在 /mp 下 后 ， 可 以 看 到 
郁金香 (tulips) ` W (roses) ` 4% (dandelion) ` [AJA 3 
(sunflowers) ` 3838 (daisy) 5 种 花 齐 的 文件 目录 ， 每 个 目录 中 存放 
春 近 800 张 该 化 开 品 种 的 图 片 ， 如 下 : 


LICENSE.txt 
daisy 
dandelion 


roses 
sunflowers 
tulips 


1. 训练 原始 模型 


我 们 使 用 TensorFlow 官 方 网 站 提供 的 预 训练 好 的 Inception V3 模型 
本 在 此 花卉 数据 集 上 进行 训练 。 在 项 目 根 目 录 tensorflow-1.1.0 下 执行 


python tensorflow/examples/image_retraining/retrain.py \ 

--bottleneck_dir=/tmp/bottlenecks/ \ 
--how_many_training_steps 10 \ 
--model_dir=/tmp/inception \ 


--output_graph=/tmp/retrained_graph.pb \ 
--output_labels=/tmp/retrained_labels.txt \ 
--image_dir /tmp/flower_photos 


训练 完成 后 ， 可 以 在 /tmp 下 看 到 生成 的 模型 文件 retrained_graph.pb 
(大 小 为 83 MB) 和 标签 文件 retrained_labels.txt ° 


BAe), ular Sit Pea EA HRS” (bottlenecks) X 
件 。 瓶 贷 是 用 于 描述 实际 进行 分 类 的 最 终 输 出 层 之 前 的 层 (倒数 第 二 
层 ) 的 非 正式 术语 。 倒 数 第 二 层 已 经 被 训练 得 很 好 ， 因 此 瓶颈 值 会 是 
一 个 有 意义 有 旦 紧凑 的 图 像 摘 要 ， 并 且 包 含 足 够 的 信息 使 分 类 器 做 出 选 


择 。 因 此 ， 在 第 一 次 训练 的 过 程 中 ，retrain.py 文 件 的 代码 会 先 分 析 所 有 
的 图 片 ， 计 算 每 张 图 片 的 瓶 肛 值 并 存储 下 来 。 因 为 每 张 图 片 在 训练 的 
过 程 中 会 被 使 用 多 次 ， 因 此 在 下 一 次 使 用 的 过 程 中 ， 可 以 不 必 重 复 计 
算 。 这 里 用 tulips/9976515506_d496c5e72c.jpg 为 例 ， 生 成 的 瓶颈 文件 为 
tulips/ 9976515506_d496c5e72c.jpg.txt， 内 容 如 图 19-8 所 示 。 


图 19-8 


2. 编译 成 iOS 支 持 的 模型 0 


这 里 ， 从 原始 模型 到 iOS 文 持 的 模型 将 经 过 3 个 阶段 的 处 理 。 首 移 
苹 去 挥 iOS 系 统 不 文 持 的 操作 ， 并 优化 模型 ， 然 后 将 模型 进行 量化 ， 权 
重 变 为 8 位 的 和 常数， 缩小 模型 ， 最 后 对 模型 做 一 个 内 存 映射 。 我 们 接 下 
来 分 步 又 细 讲 。 


(1) 去 掉 iOS 不 支持 的 操作 并 优化 模型 。 


因为 移动 设备 的 内 存 资源 稀缺 ， 并 且 还 需要 下 载 应 用 程序 ， 所 以 
默认 情况 下 ，iOS 版 本 的 TensorFlow 仪 支持 在 预测 阶段 中 常见 的 且 没 有 
很 大 的 外 部 依赖 关系 的 操作 。 官 方 网 站 维护 了 一 份 支 持 的 操作 列表 中 1 


目前 有 个 操作 DecodeJpeg 不 修文 持 ， 这 个 操作 是 用 来 对 JPEG 格 式 
的 图 片 进行 解码 的 ， 但 是 它 的 实现 依赖 于 libjpeg，libjpeg 在 iOS 上 的 文 


持 非常 及 烦 ， 并 且 还 会 增加 二 进 制 的 占用 至 间 。 同 时 ， 对 于 本 次 的 应 
用 来 说 ， 我 们 希望 从 摄像 头 中 实时 识别 出 花 开 的 种 类 ， 直 接 处 理 相机 
的 图 像 缓冲 区 ， 不 需要 先 存 成 JPEG 文 件 ， 然 后 再 解码 。 


而 恰好 我 们 基于 预 训练 模型 Imception v3 是 从 图 片 数据 集 中 训练 而 
得 ， 模 型 是 包含 了 DecodeJpeg 探 作 。 所 以 需要 把 输入 数据 直接 供给 
(feed) 发 生 在 Decode 后 的 Mul 操 作 来 绕 过 Decode 操 作 。 


而 恰好 我 们 基于 预 训练 模型 Inception V3 训练 的 模型 包含 了 
DecodeJpeg 操 作 ， 所 以 把 输入 数据 直接 填充 (feed) 到 发 生 在 解码 后 的 
Mul 操 作 来 绕 过 解码 操作 。 


这 个 步骤 也 会 做 一 些 优化 来 加 速 预测 ， 例 如 ， 将 显 式 批 处 理 规 范 
化 (explicit batch normalization) 操作 合并 到 卷 积 权重 中 ， 以 减少 计算 
次 数 。 命 令 如 下 : 


bazel build tensorflow/python/tools:optimize_for_inference 
bazel-bin/tensorflow/python/tools/optimize_for_inference \ 
--input=/tmp/retrained_graph.pb \ 


--output=/tmp/optimized_graph.pb \ 
--input_names=Mul \ 
--output_names=final_result 


在 /tmp/ 生 成 模型 optimized_graph.pb (大 小 为 83 MB) ， 可 以 通过 
label_ image 命 令 来 预测 ， 验 证 模型 的 有 效 性 ， 如 下 : 


bazel-bin/tensorflow/examples/label_image/label_image \ 
--output_layer=final_result \ 
--labels=/tmp/retrained_labels.txt \ 
--image=/tmp/flower_photos/daisy/5547758_eea9edfd54_n.jpg \ 
--graph=/tmp/optimized_graph.pb 


--input_layer=Mul 


结果 如 图 19-9 所 示 ， 模 型 还 是 有 效 的 。 


2017-04-17 03:37:47.587388: I tensorflow/examples/label_image/main.cc:206] daisy (4): 0.380978 
2017-04-17 03:37:47.587407: I tensorflow/examples/Label_image/main.cc:206] sunflowers (3): 0.192993 
2017-04-17 03:37:47.587412: I tensorflow/examples/Label_image/main.cc:206] dandelion (2): 0.158009 


2017-04-17 03:37:47.587416: I tensorflow/examples/Label_image/main.cc:206] tulips (0): 0.148149 
2017-04-17 03:37:47.587419: I tensorflow/examples/Label_image/main.cc:206] roses (1): @.119872 


图 19-9 


(2) 量化 模型 。 


尽管 苹果 系统 在 .ipa 包 中 分 发 应 用 程序 ， 所 有 应 用 程序 中 的 资源 都 
会 使 用 zip 压 缩 。 但 通常 模型 不 能 很 好 地 压缩 ， 因 此 将 模型 权重 从 浮 点 
J (范围 为 0 一 255) ， 会 损失 一 些 准确 度 ， 但 通常 小 于 
1%。 运 行 命令 如 下 : 


bazel build tensorflow/tools/quantization:quantize_graph 
bazel-bin/tensorflow/tools/quantization/quantize_graph \ 
--input=/tmp/optimized_graph.pb \ 


--output=/tmp/rounded_graph.pb \ 
--output_node_names=final_result \ 
- -mode=weights_rounded 


在 /tmp 下 生成 模型 rounded_graph.pb， 大 小 为 83MB ， 但 是 经 过 zip 


ype es 


命令 压缩 能 达到 23 MB © 
(3) 内 存 上 映射 。 


我 们 需要 处 理 的 最 后 一 个 步 又 是 内 存 映 射 [i (memory 
mapping) 。 如 果 App 把 83 MB 的 模型 全 部 一 次 性 加 载 到 内 存 缓冲 区 ， 


光 加 载 这 一 步 就 会 对 iO0S 的 RAM 上 施加 很 大 的 压力 ， 同 时 ， 操 作 系 统 会 
不 可 预知 地 杀 死 使 用 内 存 过 多 的 应 用 程序 。 我 们 需要 使 用 的 模型 权 值 
缓冲 区 是 只 读 的 ， 因 此 可 以 把 它 映射 到 内 存 中 。 当 有 内 存 压力 时 ， 操 
作 系统 可 以 直接 释放 些 内 存 ， 来 避免 系统 直接 毅 溃 。 


如 何 来 做 呢 ? 需要 重新 排列 模型 ， 使 权重 能 够 分 部 分 逐 块 地 从 主 
GraphDef 加 载 到 内 存 中 。 运 行 命令 如 下 : 


bazel build 
tensorflow/contrib/util:convert_graphdef_memmapped_format 
bazel-bin/tensorflow/contrib/util/convert_graphdef_memmapped_format 


--in_graph=/tmp/rounded_graph.pb \ 
--out_graph=/tmp/mmapped_graph.pb 


这 时 会 在 /tmp 下 生成 模型 mmapped_graph.pb (大 小 为 83 MB) 。 
3. 生成 :OS 工程 文件 并 运行 

我 们 使 用 19.2.2 节 中 粗略 介绍 过 的 视频 流 实时 预测 的 演示 程序 的 例 
子 US) ， 将 模型 文件 和 标记 文件 复制 到 tensorflow- 


1.1.0/tensorflow/contriby/ios_examples/camera/data 目 孙 下 。 


然后 修改 tensorflow-1.1.0/tensorflow/contrib/ios_examples/camera 下 
的 文件 CameraExample ViewControllermm， 更 改 要 加 载 的 模型 文件 名 
称 、 输 入 图 片 的 尺寸 、 操 作 节 点 的 名 字 以 及 缩放 像素 大 小 等 。 如 下 : 


static NSString* model_file_name 
static NSString* model_file_type 


@"mmapped_graph"; 
@"pb" g 


const bool model_uses_memory_mapping = true; 


static NSString* labels_file_name 
static NSString* labels_file_type 
// 以 下 尺寸 需要 和 模型 训练 时 相 匹 配 


@"retrained_labels"; 
@"txt"; 


const int wanted_input_width = 299; 

const int wanted_input_height = 299; 

const int wanted_input_channels = 3; 

const float input_mean = 128.0f; 

const float input_std = 128.0f; 

const std::string input_layer_name = "Mul"; 

const std::string output_layer_name = "final_result"; 


BUR CiPhone FHL, wt AT LAM E tensorflow- 
1.1.0/tensorflow/contrib/ios_examples/camera/ camera_example.xcodeproj 
编译 并 运行 了 。 运 行 后 ， 会 在 手机 上 安装 好 App， 打 开 App 并 找到 玫瑰 
花 来 识别 ， 识 别 结 果 如 图 19-10 所 示 。 


eeeee 中 国 移动 F ~ 1 O 96% G+ 


CameraExa... 


41% Roses 

28% Titi pS 
13%! Sunf Lowers 
1129% Dandelion 


6%1 Daisy 
| 
-~ 


-i 


Freeze Frame 


图 19-10 


这 里 概率 并 不 是 很 高 ， 原 因 是 我 在 训练 的 时 候 迭 代 次 数 只 设置 了 
10 次 ， 设 置 10 000 次 后 ， 可 以 使 识别 概率 达到 99% 以 上 。 


那么 ， 这 个 安装 到 iOS 系 统 上 的 工程 文件 里 面 究 竟 包 含 了 什么 ， 才 
达到 用 摄像 头 实时 识别 的 目的 呢 ? 生 成 的 打包 好 的 工程 文件 位 
村 /Users/lijiaxuan/Library/Developer/Xcode/DerivedData/ 
camera_example-dwwvzqamrwtfblfprxmxpvwasgin/Build/Products/Debug- 


iphoneos 下， 如 图 19-11 所 示 。 


Debug-iphoneos 
| n m g~v #~ Q# 


CameraExample CameraExample.a 
pp.dSYM 


图 19-11 


我 们 打开 CameraExample.app 文 件 一 探究 竟 。 里 面 就 包含 了 安装 在 
iPhone 上 的 可 执行 文件 CameraExample 以 及 以 资源 文件 方式 存储 的 模型 
文件 nmapped_graph.pb 和 标记 文件 retrained_labels.txt， 如 图 19-12 所 
示 。 


, CameraExample 


GJ= n m g~ #~ 


BEI m E 


_CodeSignature CameraExample Default-568h@2x embedded.mobile en.lproj Info.plist mmapped_graph. 
.png provision pb 
Pkglnfo retrained_labels.t 
图 19-12 


19.3 Android AA XE MA 


本 广 先 带领 读者 准备 好 Android 系 统 的 编译 环境 ， 然 后 再 真实 地 编 
译 一 个 能 在 Android 手 机 上 运行 的 图 厂 识 别 模型 ， 随 后 讲解 使 用 目 己 的 
数据 ， 如 何在 PC 并 训练 好 一 个 模型 ， 经 过 模型 优化 后 ， 编 译 成 Android 
支持 的 模型 ， 并 生成 Android apk 文 件 安 装 在 Android 手 机 上 运行 。 


19.3.1 ”环境 准备 


下 面 就 一 步 一 步 地 介绍 如 何在 有 摄像 头 的 Android 设 备 上 运行 
TensorFlow 的 图 片 分 类 器 。 我 们 先 来 搭建 环境 ， 需 要 依赖 Java、Android 


SDK ` Android NDK、Bazel。 这 里 仍然 使 用 Mac Pro 笔 记 本 进行 演示 ， 
其 他 操作 系统 的 搭建 环境 与 此 类 似 。 


1. 搭建 Java 环 境 


从 Oracle 官 方 网 站 下 载 JDK 1.8 版 本 US! ， 得 到 jdk-8u111-macosx- 
x64.dmg 文 件 ， 双 击 进行 安装 ， 如 图 19-13 所 示 。 


eee | JDK 8 Update 111 


Java Development Kit 


Double-click on icon to install 


JDK 8 Update 111.pkg 


图 19-13 


安装 完毕 后 ， 设 置 Java 的 环境 变量 ， 如 下 : 


JAVA_HOME= /usr/libexec/java_home~ 


export JAVA_HOME 


2. 搭建 Android SDK 环 境 


从 Android 官 方 网 站 [16] 下 载 Android SDK， 这 里 使 用 的 是 25.0.2 版 
本 ， 得 到 文件 android- sdk_r25.0.2-macosx.zip， 然 后 直接 解压 ， 放 在 
~/Library/Android/sdk 目 录 下 。 解 压 后 里 面 的 目录 如 下 : 


build-tools 
extras 
patcher 


platform-tools # 各 版 本 SDK。 有 根据 API Leve1 划 分 的 SDK 版 本 
platforms 


sources 
system-images 
上 一 一 temp # 临时 文件 夹 ， 一 般 在 SDK 更 新 安装 时 用 到 
# 各 版 本 通用 的 SDK 工 具 。 含 有 adb、aapt、aid1、dx 等 


3. 搭建 Android NDK 环 境 


从 Android 官 方 网 站 1 下 载 Android NDK 的 Mac OS X 版 本 ， 得 到 
android-ndk-r13b-darwin-x86_64.zip 文 件 ， 直 接 解 压 即 可 。 解 压 后 得 到 
的 目录 如 下 : 


CHANGELOG. md 
build 
ndk-build 
ndk-depends 
ndk-gdb 
ndk-stack 
ndk-which 
platforms 


prebuilt 
python-packages 
shader -tools 
simpleperf 
source.properties 
sources 
toolchains 


4. 搭建 Bazel 


直接 使 用 brew 安 装 bazel， 如 下 : 


brew install bazel 


知已 安装 ， 用 如 下 方式 更 新 ; 


brew upgrade bazel 


19.3.2 ”编译 演示 程序 并 运行 


至 此 ， 编 译 Android 手 机 的 apk 文 件 需要 用 的 环境 都 已 经 搭建 好 了 。 
下 面 就 来 编译 一 个 TensorFlow 的 图 片 分 类 演示 程序 ， 并 在 Android 手 机 
上 运行 。 相 关 演 示 程 序 在 https:/github.comy/ 


tensorflow/tensorflow/tree/master/tensorflow/examples/android 。 
1. 编译 演示 程序 


目 先 ， 修 改 tensorflow-1.1.0 的 根 目录 中 的 WORKSPACE 文 件 。 将 
android_sdk_repository 和 android_ndk_repository 的 配置 改 为 用 户 自己 的 
安装 目录 及 版 本 。 上 有 具体 如 下 ; 


android_sdk_repository( 
name = "androidsdk", 
api_level = 25, 
build_tools_version = "25.0.2", 
# Replace with path to Android SDK on your system 
path = "~/Library/Android/sdk", 


) 


android_ndk_repository( 
name="androidndk", 
path="~/Downloads/android-ndk-ri3b", 


api_level=23) 


修改 完毕 后 ， 在 根 目 录用 bazel 构 建 : 


bazel build //tensorflow/examples/android:tensorflow_ demo 


a 


所 

my 
AS 
HL 


Vw 


果 如 下 : 


Target //tensorflow/examples/android:tensorflow demo up-to-date: 
bazel-bin/tensorflow/examples/android/tensorflow_demo_deploy.jar 
bazel- 


bin/tensorflow/examples/android/tensorflow_demo_unsigned.apk 
bazel-bin/tensorflow/examples/android/tensorflow_demo.apk 
INFO: Elapsed time: 39.357s, Critical Path: 15.21s 


在 编译 成 功 之 后 ， 默 认 会 在 tensorflow-1.1.0/bazel- 
bin/tensorflow/examples/android 目录 下 面 生 成 我 们 想 要 的 TensorFlow 演 
示 程 序 ， 如 图 19-14 所 示 。 


_dx 

_javac 

Libtensorflow_demo. jar 
Libtensorflow_demo. jar-2.params 
Libtensorflow_demo. jar_manifest_proto 
Libtensorflow_demo. jdeps 

proguard 

tensorflow_demo.ap_ 

tensorf Low_demo.apk <= 
tensorflow_demo.srcjar 
tensorflow_demo_depLoy. jar 
tensorflow_demo_depLoy. jar-2.params 
tensorf Low_demo_files 
tensorflow_demo_processed_manifest 
tensorflow_demo_resources. jar 
tensorflow_demo_symbol1s 
tensorflow_demo_unsigned.apk <q" 


图 19-14 


下 面 我 们 就 把 生成 的 apk 文 件 安装 到 Android 手 机 上 并 运行 。 


(Hi 


2. 运行 

将 生成 的 apk 文 件 传输 到 手机 上 ， 利 用 手机 摄像 头 看 看 效果 。 这 里 
采用 的 是 小 米 Note 手 机 ， 搭 载 Android 6.0.1 版 本 ， 并 且 需 要 开启 “开发 
者 模式 ”。 将 手机 用 数据 线 与 计算 机 相连 ， 进 入 SDK 所 在 的 目 未 下 ， 进 
入 platform-tools 文 件 夹 ， 找 到 adb 命 令 ， 并 执行 : 


./adb install tensorflow-0.12/bazel- 


bin/tensorflow/examples/android/tensorflow_demo.apk 


这 样 承 将 tensorflow_demo.apk 目 动 安 装 到 手机 上 了 ， 在 手机 上 会 生 
成 图 19-15 所 示 的 两 个 App 图 标 。 


打开 TF Detect 的 App，App 会 调 起 手机 摄像 头 ， 对 摄像 头 返回 的 数 
据 流 进行 实时 监测 ， 监 测 结果 如 图 19-16 所 示 。 


TF Classify 


图 19-15 


i 


图 19-16 


看 起 来 精度 并 不 是 很 高 ， 与 手机 摄像 头 的 像素 有 关系 。 读 者 可 以 
定制 自己 的 图 片 分 类 絮 ， 训 练 好 模型 后 ， 重 新 编译 apk 有 可。 
19.3.3” 自 定义 模型 的 编译 及 运行 


本 节 和 19.2.3 节 中 的 步骤 基本 相同 ， 仍 然 分 为 3 步 ， 训练 原始 模 
型 、 编 译 成 Android 系 统 支持 的 模型 ， 以 及 生成 Andriod apk 文 件 并 运 
行 。 


其 中 ， 训 练 原 始 模型 和 编译 成 Android 系 统 支 持 的 模型 的 过 程 都 是 
相同 的 ， 因 为 都 是 使 用 项 目 根 目录 下 的 
tensorflow/python/tools/optimize_for_inference.py ` 
tensorflow/tools/quantization/ quantize_graph.py ` 
tensorflow/contrib/util/convert_graphdef_memmapped_format.cc7} HXT $R 
型 进行 优化 。 这 里 ， 我 们 直接 将 第 一 步 生 成 的 原始 模型 文件 
retrained_graph.pb 和 标记 文件 retrained_labels.txt 放 在 


tensorflow/examples/android/assets 目 永 下 。 


需要 修改 
tensorflow/examples/android/src/org/tensorflow/demo/TensorFlowImageCla 
ssifier.java 中 要 加 载 的 模型 文件 名 称 ， 输 入 图 片 的 尺寸 、 操 作 市 点 的 名 
字 和 如 何 缩放 像素 大 小 等 ， 这 和 19.2.3 节 非常 类 似 ， 只 是 是 用 Java 语 言 
实现 的 。 方 法 如 下 : 


private static final int INPUT_SIZE 
private static final int IMAGE_MEAN : 
private static final float IMAGE_STD = 128; 

private static final String INPUT_NAME = "Mul:0"; 

private static final String OUTPUT_NAME = "final_result:0"; 
private static final String MODEL_FILE = 


128; 


"file:///android_asset/retrained_graph.pb"; 
private static final String LABEL_FILE = 
"file:///android_asset/retrained_labels.txt"; 


然后 重新 编译 apk， 连 接 上 Android 手 机 后 ， 安 装 apk， 方 法 如 下 : 


bazel build //tensorflow/examples/android:tensorflow_demo 
adb install -r -g bazel- 


bin/tensorflow/examples/android/tensorflow_demo.apk 


运行 结果 仍 如 图 19-10 所 示 。 
19.4 WEER 


TensorFlow 还 可 以 在 树 人 等 派 (Raspberry Pi) 上 运行 ， 树 每 派 是 只 
有 信用 卡 大 小 的 微型 电脑 ， 系 统 基 于 Linux， 它 也 有 音频 和 视频 功能 。 
现在 有 很 多 树 葡 派 的 应 用 ， 例 如 ， 输 入 1 万 张 自 己 的 面部 图 片 ， 在 树 苞 
派 上 训练 人 脸 识别 的 模型 ， 教 会 它 认 识 你 后 ， 可 以 在 你 进入 家 门 后 ， 
帮 你 开 灯 、 播 放 音乐 等 各 种 功能 。 树 莓 派 上 的 编译 方法 和 直接 在 Linux 
环境 上 使 用 十 分 相似 ， 读 者 可 以 自己 参考 文档 。 


19.5 小结 


本 章 讲解 了 移动 端 模 型 的 应 用 原理 ， 重 点 讲解 了 量化 这 一 重要 思 
想 ， 介 绍 了 TensorFlow 在 iOS 和 Android 移 动 端 的 应 用 ， 并 采用 
TensorFlow 的 工具 对 生成 的 原始 模型 进行 优化 、 量 化 和 内 存 映射 。 其 原 
理 都 是 借助 有 摄像 头 的 手机 来 做 分 类 和 物体 识别 。 随 独 移 动 端 手机 性 
能 的 提高 ， 在 移动 端 做 深度 学 习 会 有 很 大 前 景 。 


[1] ”im2col 的 主要 功能 是 对 索引 的 图 像 块 重 排列 为 矩阵 列 。 它 是 先 将 
一 个 大 和 矩阵， 重合 地 划分 为 多 个 子 矩 阵 ， 对 每 个 子 矩 阵 序列 化 成 向 
量 ， 最 后 得 到 为 一 个 矩阵 。 


[2] ”本 厄 参 考 日 官方 网 站 《How to Quantize Neural Networks with 


TensorFlow»》 : https://www.tensorflow.org/performance/quantization ° 


[3] 下 载 路 径 
http://download.tensorflow.org/models/image/imagenet/inception-2015-12- 


05.tgz ° 
[4] ” 库 地 址 为 https://github.com/google/gemmlowp ° 


[5] ”代码 位 于 
https://github.com/tensorflow/tensorflow/tree/master/tensorflow/contrib/ios_ 


examples/ ° 


[6] ”模型 的 下 载 地 址 为 
https://storage.googleapis.com/download.tensorflow.org/models/inception5h. 


zip ° 


[7] ”本 市 讲解 的 内 容 部 分 参考 官方 网 站 


https://www.tensorflow.org/tutorials/image_retraining ° 


[8]  http://download.tensorflow.org/example_images/flower_photos.tgz 


[9] ”模型 地 址 为 


http://download.tensorflow.org/models/image/imagenet/inception-2015-12- 


05.tgz ° 


[10] A’) ARE https://petewarden.com/2016/09/27/tensorflow-for- 


mobile-poets/ ° 


[11] 文 持 的 操作 列表 参见 
https://github.com/tensorflow/tensorflow/blob/master/tensorflow/contrib/ma 


kefile/tf_op_files.txt ° 


[12] “内存 映 射 是 指 把 物理 内 存 映 射 到 进程 的 地 址 空间 之 内 ， 随 后 应 
用 程序 就 可 以 直接 使 用 输入 /输出 的 地 址 空间 ， 从 而 提高 读 写 的 效率 。 


[13] 地 址 为 
https://github.com/tensorflow/tensorflow/tree/master/tensorflow/contrib/ios_ 


examples/camera ° 


[14] ”本 市 有 部 分 参考 官方 网 站 
https://github.com/tensorflow/tensorflow/tree/master/tensorflow/examples/a 
ndroid/ ° 


[15]  http://www.oracle.com/technetwork/java/javase/downloads/jdk8- 


downloads-2133151.html 
[16] https://developer.android.com 


[17]  https://developer.android.com/ndk/downloads/index.html 


第 20 章 ”TensorFlow 的 其 他 特性 


随 着 TensorFlow 的 版 本 不 断 迭 代 ， 目 前 它 已 经 有 很 多 新 特性 。 除 了 
第 15 章 和 第 16 章 介绍 的 XLA 和 Debugger 外 ， 还 有 一 个 非常 好 的 生产 系 
统 使 用 模型 服务 系统 一 一 TensorFlow Serving， 以 及 支持 动态 图 计算 的 
TensorFlow Fold ° 此外， 还 有 一 些 基于 便 件 的 优化 方法 也 是 目前 人 工 短 
能 发 展 的 趋势 。 本 章 就 来 介绍 一 下 这 些 内 容 。 


20.1 TensorFlow Serving H 


TensorFlow Serving 是 专 为 生产 环境 设计 的 一 种 灵活 、 高 性 能 的 机 
学 习 模 型 服务 系统 。 它 非常 适合 基于 实际 情况 的 数据 大 规模 地 运 
， 会 产生 多 个 模型 的 训练 过 程 。 


oy} % 


TensorFlow Serving 可 以 用 于 开发 过 程 和 生产 过 程 ， 有 以 下 两 个 主 
要 作用 。 


(1) 对 模型 的 生命 周期 进行 管理 。 一 个 模型 一 般 是 先 数据 训练 ， 
然后 逐步 产生 初步 的 模型 ， 随 后 优化 模型 。 图 20-1 所 示 为 持续 的 模型 训 


持续 的 训练 过 程 
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图 20-1 


(2) 当 模 型 采用 多 重 算法 进行 试验 时 ， 对 生成 的 模型 进行 管理 。 
当 客 户 端 (Client) 向 TensorFlow Serving 请 求 模型 后 ，TensorFlow 
Severing 会 返回 适当 的 模型 给 客户 端 。 图 20-2 所 示 为 TensorFlow 
Severing 洋 构 天 系 图 。 
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模块 2 > Hl TensorFlow Serving 
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客户 端 
图 20-2 


男 外 ，TensorFlow 主 要 支持 Python 和 C++， 最 近 叉 增加 了 对 Java、 
Ruby 和 Go 的 文 持 。 但 是 ， 大 部 分 用 户 可 能 是 基于 Python API 来 构建 图 
和 训练 模型 的 ， 直 接 使 用 其 他 编程 语言 访问 模型 比较 困难 。 有 了 
TensorFlow Serving 和 gRPC [站 ， 就 可 以 提供 蜂 语言 的 RPC 接 口 ， 使 用 
Java、Go 甚 至 是 Ruby 都 可 以 直接 访问 这 些 模 型 。 


TensorFlow Serving 的 代码 位 于 https://github.com/ tensorflow/serving 
， 安 装 过 程 可 以 采用 源 代 码 Bazel 编 译 安装 8) ， 或 者 采用 Docker 安 装 。 


具体 的 过 程 可 以 参考 TensorFlow 官 方 网 站 [和 。 


在 第 17 章 我 们 讲解 了 通过 Kubernetes 来 实现 TensorFlow 和 集群 ， 其 实 
还 可 以 结合 TensorFlow Serving， 为 训练 好 的 模型 创建 一 个 Docker 镜 
像 ， 将 它 推送 到 Google Container Registry P! 上 ， 这 样 模型 就 可 以 在 谷 
歌 云 平台 (Google Cloud Platform) 上 运行 了 ， 也 就 是 说 ， 在 
Kubernetes 里 成 功 部 署 了 模型 的 服务 。 详 细 的 安装 方法 可 以 参考 
TensorFlow 官 方 网 站 的 “Serving Inception Model with TensorFlow Serving 
and Kubernetes” l6! ° ASh, AIDIEN T Google ML Engine， 这 是 一 个 
全 托管 的 TensorFlow 平 台 ， 能 把 训练 的 模型 一 键 转换 为 预测 服务 。 


20.2 TensorFlow Flod [7 


一 般 的 深度 学 习 过 程 是 ， 先 对 模型 的 训练 数据 进行 预 处 理 ， 把 不 
同 结构 的 数据 喜 裁 成 相同 的 维度 和 尺寸 ， 划 分 为 一 批 批 的 ， 进 入 到 训 
练 流程 里 。 


这 种 训练 方式 称 为 “静态 图 模型 ”。 它 的 缺点 在 于 ， 如 果 输 入 数据 
无 法 进行 一 般 的 预 处 理 ， 模 型 就 必须 针对 不 同 的 输入 数据 建立 不 同 的 
计算 图 (computation graph) 分 别 进行 训练 ， 对 处 理 器 、 内 存 和 高 速 绥 
存 都 没有 很 好 地 利用 。 


TensorFlow Fold [8] 可 以 根据 不 同 结构 的 输入 数据 建立 动态 计算 图 

(dynamic computation graph) ， 根 据 每 个 不 同 的 输入 数据 建立 不 同 的 
计算 图 。 动 态 批 处 理 (dynamic batching) 功能 会 自动 组 合 这 些 计算 

图 ， 实 现在 输入 数据 内 部 的 批 处 理 ， 也 就 是 批 处 理 单个 输入 图 内 的 不 


同 节 点 ， 以 及 不 同 输入 数据 之 间 的 批 处 理 ， 也 就 是 批 处 理 不 同 输入 图 
之 间 的 运算 。 同 时 还 可 以 通过 插入 一 些 附加 指令 来 在 不 同 批 处 理 操作 
之 间 移 动 数据 。 这 简化 了 模型 训练 阶段 对 输入 数据 的 预 处 理 过程 。 这 
些 批 处 理 操作 的 优势 赋予 模型 后 ， 在 CPU 的 模型 的 运行 速度 提高 了 10 
倍 以 上 ，GPU 上 提高 了 100 倍 。 


Tensorflow 的 动态 图 计算 的 提出 被 认 为 是 第 一 次 清晰 地 在 设计 理念 
上 领先 其 他 深度 学 习 框 架 。 


20.3 ”TensorFlow 计 算 加 速 


使 用 TensorFlow 框 染 训 练 时 使 训练 加 速 的 方法 有 很 多 。 例 如 ， 可 以 
通过 用 GPU 的 设备 来 实现 ， 可 以 通过 XLA 框 架 对 部 分 OP 进行 融合 ， 还 
可 以 采用 分 布 式 的 方式 将 计算 部 分 和 参数 部 分 分 布 到 不 同 机 器 上 来 提 
升 性 能 。 同 时 ， 还 可 以 利用 硬件 来 计算 ， 如 利用 CPU 的 更 高 级 的 指令 
集 ， 如 SSE、AVX 等 ， 用 FPGA 编 写 文 持 TensorFlow 的 计算 单元 等 。 这 
里 我 们 移 讲 解 一 下 在 CPU 的 情况 下 如 何 进行 优化 ， 使 用 CPU 运行 时 可 
能 出 现 哪 些 警告 ， 提 出 优化 的 方向 ， 随 后 讲解 FPGA 的 加 速 原理 。 


20.3.1 CPU 加 速 


如 果 是 直接 采用 pip 命 令 的 方式 安装 的 ， 可 能 会 报 出 以 下 警告 : 


2017-02-26 13:27:48.579303: W 
tensorflow/core/platform/cpu_feature_guard.cc:45] 

The TensorFlow library wasn't compiled to use SSE4.1 instructions, 
but these are 

available on your machine and could speed up CPU computations. 
2017-02-26 13:27:48.579512: W 
tensorflow/core/platform/cpu_feature_guard.cc:45] 


The TensorFlow library wasn't compiled to use SSE4.2 instructions, 
but these are 

available on your machine and could speed up CPU computations. 
2017-02-26 13:27:48.579519: W 
tensorflow/core/platform/cpu_feature_guard.cc:45] 

The TensorFlow library wasn't compiled to use AVX instructions, but 
these are 

available on your machine and could speed up CPU computations. 
2017-02-26 13:27:48.579524: W 
tensorflow/core/platform/cpu_feature_guard.cc:45] 

The TensorFlow library wasn't compiled to use AVX2 instructions, 
but these are 

available on your machine and could speed up CPU computations. 
2017-02-26 13:27:48.579528: W 
tensorflow/core/platform/cpu_feature_guard.cc:45] 

The TensorFlow library wasn't compiled to use FMA instructions, but 
these are 

available on your machine and could speed up CPU computations. 


出 现 上 述 问 题 的 原因 是 : 为 了 尽 可 能 与 更 广泛 的 机 器 兼容 ， 
TensorFlow 上 默认 仅 在 x86 机 如 上 使 用 SSE4.1 SIMD 指 令 ， 而 大 多 数 现代 
PC 和 Mac 都 支持 更 高 级 的 指令 。 因 此 ， 通 过 源 代码 安装 可 以 获得 最 大 
性 能 ， 可 以 开启 CPU 的 高 级 指令 集 (WSSE ` AVX) 的 支持 。 可 以 使 用 
bazel 构 建 一 个 只 能 在 自己 的 机 器 上 运行 的 二 进 制 文件 ， 如 下 : 


bazel build -c opt --copt=-mavx --copt=-mavx2 --copt=-mfma --copt=- 
mfpmath=both --copt=-msse4.2 --config=cuda -k 
//tensorflow/tools/pip_package:build_pip_package 


bazel-bin/tensorflow/tools/pip_package/build_pip_package 
/tmp/tensorflow_pkg 


此 时 会 在 /tmp/tensorflow_pkg 下 产生 一 个 wheel 文 件 ， 再 用 pip 命 令 
安装 这 个 wheel 文 件 。 


20.3.2 ”TPU 加 速 和 FPGA 加 速 


谷歌 目前 为 TensorFlow 设 计 了 专用 集成 必 片 张 量 处 理 单 元 


(Tensor Processing Unit，TPU) 。 


我 们 知道 ，CPU 进 行 逻辑 运算 (Wif else) 的 能 力 很 强 ， 但 是 纯粹 
的 计算 能 力 与 GPU 相 比 就 差 一 些 ， 而 深度 学 习 恰恰 需要 做 海量 的 计 
Fo 


GPU 在 一 些 场景 下 运算 速度 比 CPU 要 快 ， 一 方面 是 因为 GPU 有 强 
大 的 浮 点 计算 单元 ，GPU 的 着 色 器 (shader) 是 对 一 批 数 据 以 相同 的 步 
调 执行 相同 的 指令 流水 ， 准 确 地 讲 ，GPU 在 同一 时 钟 周期 能 执行 的 指 
令 的 数量 是 千 级 别 的 ， 好 的 GPU 大 约 是 3000 多 条 ， 而 CPU 在 同一 时 钟 
周期 内 能 执行 的 指令 数量 是 几 十 级 别 的 ， 因 此 远 超 CPU 指令 集 的 数据 
并 行 能 力 ， 作 为 代价 就 是 GPU 做 if else 能 力 很 绊 ， 原 因 就 是 它 流水 线 并 
行 能 力 〈 同 一 时 钟 周 期 并 发 执行 不 同 逻 辑 序列 的 能 力 ) 很 差 ， 它 需要 
这 一 批 数据 同步 调 地 执行 同样 的 逻辑 。 


而 神经 网 络 刚好 需要 这 样 的 大 规模 数据 并 行 的 能 力 ， 尤 其 是 CNN 
中 卷 积 、 和 矩阵 运算 之 类 的 操作 ， 都 是 通过 数据 并 行 可 大 幅 提 融 性 能 
的 。 


但 是 ， 因 为 GPU 出 三 后 架构 固定 ， 人 硬件 原生 文 持 的 指令 束 固 定 
了 ， 所 以 ， 如 果 神 经 网 络 中 有 GPU 不 支持 的 指令 ，GPU 就 不 能 直接 实 
现 。 例 如 ， 如 琳 想 要 计算 矩阵 乘法 ， 但 是 在 GPU 只 文 持 加 法 和 乘法 ， 
那 束 只 能 用 软件 模拟 的 方法 用 加 法 和 乘法 来 模拟 答 阵 乘法 。 


FPGA 的 加 速 就 在 于 ， 虽 然 硬 件 中 可 能 有 不 支持 的 指令 ， 但 是 开发 
者 可 以 在 FPGA 里 编程 ， 改 变 FPGA 的 硬件 结构 来 使 它 支 持 。 


那 是 不 是 GPU 支 持 足 够 多 的 基础 指令 ， 束 能 打 平 FPGA 了 呢 ? 不 
是 。FPGA 加 速 在 于 它 和 GPU 和 CPU 的 体系 结构 就 不 同 。FPGA 不 是 冯 
庄 伊 曼 结 构 的 ， 而 是 一 个 代码 描述 的 逻辑 电路 。FPGA 只 要 上 户 上 逻辑 门 
和 引 脚 够 多 ， 全 部 输入 、 运 算 和 输出 都 在 一 个 时 钟 周 期 内 完成 。FPGA 
因为 一 个 时 钟 周期 执行 一 次 全 部 烧 好 的 电路 ， 某 种 角度 来 说 它 一 个 模 
块 就 一 句 超 复杂 “指令 ”， 所 以 不 同 模 块 也 算是 不 同 逻 辑 序 列 ， 并 且 这 
个 序列 里 就 一 条 指令 。 单 元 间 通 信 这 些 汉 : 诺 伊 曼 结构 的 东西 对 于 FPGA 
都 不 是 问题 ， 不 同 运算 单元 间 本 身 就 硬件 直 连 ， 所 以 才能 做 到 数据 并 
行 和 流水 线 并 行 共存 (GPU 流水 线 并 行 能 力 约 为 0) ， 真 的 要 比 单 算 浮 
点 运算 能 力 ， 当 前 常见 的 FPGA 不 比 GPU 好 。 因 此 ， 如 果 是 需要 低 延 迟 
的 预测 推理 ， 每 批 大 小 比较 小 时 ，FPGA 更 合适 。 


而 TPU 和 FPGA 类 似 ， 它 是 一 种 专用 集成 电路 (application specific 
integrated circuit, ASIC) ,但 是 人 硬件 逻辑 一 旦 烧 写 完毕 束 不 可 以 再 编 
程 ， 是 专门 为 TensorFlow 做 深度 学 习 开发 的 。 从 TPU 目 前 的 版 本 来 看 ， 
还 不 能 完整 运行 Tensorflow 的 功能 ， 它 的 目的 是 高 效 地 完成 预测 推理 ， 
还 不 涉及 训练 。 


20.4 “人 小结 


本 章 介绍 了 TensorFlow 的 其 他 新 特性 ， 如 TensorFlow Serving ` 
TensorFlow Flod， 还 介绍 了 TensorFlow 的 人 硬件 加 速 方法 ， 例 如 ， 当 计算 
机 只 有 CPU 时 ， 开 发 人 员 可 以 利用 CPU 的 更 高 级 的 指令 集 ; 当 有 FPGA 
时 ， 开 发 人 员 可 以 在 FPGA 里 编程 ， 改 变 硬 件 结构 来 文 持 神经 网 络 的 指 
S; 当 有 TPU 时 ， 它 完美 地 文 持 TensorFlow 的 所 有 运算 ， 歼 率 最 高 。 


[1] 本 节 参 考 TensorFlow 官 方 网 站 文档 : 
https://tensorflow.github.io/serving/ ° 


[2] ”gRPC 是 合 歌 公司 开源 的 一 个 高 性 能 、 跨 语言 的 RPC 框 架 。 


[3] “与 编译 安装 TensorFlow 类 似 ， 安 装 方法 见 
https://github.com/tensorflow/serving/blob/master/tensorflow_serving/g3doc 


/setup.md ° 

[4] https://tensorflow.github.io/serving/setup 

[5] https://cloud.google.com/container-registry/docs/ 

[6] https://tensorflow.github.io/serving/serving_inception 


[7] ”本 市 参考 论文 《Deep Learning with Dynamic Computation 
Graphs) : https://openreview.net/pdf?id=ryrGawqex ° 


[8]  https://github.com/tensorflow/fold 


第 21 章 ”机 器 学 习 的 评测 体系 


当 我 们 训练 完 一 个 模型 之 后 ， 如 何 评价 这 个 模型 的 好 坏 呢 ? 准确 
率 是 一 个 评价 标准 ， 但 它 仅仅 是 相对 于 这 个 模型 对 测试 集 的 预测 结 
条 。 抛 开 这 些 ， 如 何 看 行 这 个 模型 在 解决 语音 或 图 像 的 茶 个 具体 问题 
时 是 否 能 发 挥 作 用 呢 ? 这 就 涉及 评价 模型 的 性 能 指标 。 本 章 主 要 讲解 
人 脸 识 别 和 智能 聊天 机 万 人 的 性 能 指标 ， 以 及 机 天 翻 译 的 评价 方法 和 
常用 的 通用 评价 指标 。 


21.1 人 脸 识别 的 性 能 指标 


人 脸 识 别 的 主要 性 能 指标 包括 鉴别 性 能 和 验证 性 能 。 


(1) 鉴别 性 能 束 是 指 是 否 鉴 别 准确 。 具 体 性 能 指标 有 以 下 几 个 。 


。 Top-K 识 别 率 :就 是 在 给 出 的 前 K 个 结果 中 包含 正确 结果 的 概率 。 

。 错误 拒绝 辨识 率 (FNIR) : 指 注册 用 户 被 系统 错误 辨识 为 其 他 注 
册 用 户 的 比例 。 

。 错误 接受 辨识 率 (FPIR) : 非 注 册 用 户 被 系统 辨识 为 某 个 注册 用 
户 的 比例 。 


(2) 验证 性 能 是 指 验证 人 脸 模 型 是 否 足够 好 。 人 性 能 指标 主要 有 以 
下 两 个 。 


e iRVA (False Accept Rate, FAR) : 就 是 将 其 他 人 误 作 指定 人 员 
的 概率 。 

。 拒 识 率 (False Reject Rate, FRR) : 就 是 将 指定 人 员 误 作 其 他 
员 的 概率 。 


= 


除 此 之 外 ， 还 有 识别 速度 (识别 一 副 人 脸 图 像 的 时 间 、 识 别 一 个 
人 的 时 间 ) 、 注 册 速 度 (注册 一 个 人 的 时 间 ) 等 衡量 人 脸 识别 技术 的 
指标 。 


21.2 ”聊天 机 絮 人 的 性 能 指标 


如 何 对 聊天 机 器 人 智能 程度 进行 评价 是 一 项 挑战 。 目 前 采用 的 通 
用 的 客观 评价 标准 有 : 回答 正确 率 、 任 务 完成 率 、 对 话 回 合 数 、 对 话 
时 间 、 系 统 平均 啊 应 时 间 、 错误 信 息 率 等 ， 但 是 评价 的 基本 单元 是 单 
轮 对 话 。 同 时 ， 由 于 人 机 对 话 过 程 是 一 个 连续 的 过 程 ， 输 入 首 句 后 对 
话 展 开 ， 不 同系 统 的 回复 不 尽 相同 ， 因 此 不 能 商 单 地 将 连续 对 话 切 分 
成 单 纶 对 话 去 评价 。 因 此 ， 在 形成 客观 标准 之 前 ， 设 计 合理 的 人 工 主 
观 评价 也 是 对 聊天 机 器 人 智能 程度 评价 标准 的 补充 。 H 


一 个 好 的 聊天 机 侨 人 应 该 具有 以 下 特 上 后 。 


(1) 机 器 人 的 管 句 和 用 户 的 问 句 应 该 语义 一 怪 ， 语 法 正确 ， 并 且 
逻辑 正确 。 


(2) 机 器 人 的 管 句 应 该 是 有 趣 的 、 多 样 的 ， 而 不 是 一 直 产 生 一 些 
安全 回答 ， 如 “好 呀 ”是 呀 ?之 类 。 


在 这 两 个 特点 上 ， 微 软 小 冰 吏 表现 得 很 好 。 我 章 毅 用 一 名 重复 的 
话 辟 它 ， 但 它 回 复 非 常 多 样 而 且 有 趣 ， 有 时 候 甚至 还 会 “ 训 不 ”我 尽 古 
重复 一 句 话 ， 并 且 还 能 给 出 图 片 、 各 种 角度 的 多 样 回答 ， 能 够 对 话 多 
轮 ， 而 不 会 重复 管 句 ， 给 人 对 方 词 穷 的 感觉。 例如 ， 图 21-1 给 出 的 是 我 
和 小 冰 的 一 次 对 话 。 


,99 昌 


我 赚 的 都 发 出 去 了 。。。 


Soe 


a ip 


F 对 哦 你 骗 人 。 
R 


祝 新 的 一 年 , 芝麻 开花 节 节 高 


PRONE ip 


祝 你 新 年 财源 滚滚 滚 不 停 呀 


BERR ip 


mases Ùp 


mamase iy 


a > 
Soy 
í - 


ad 
Ra 开 开心 心 每 一 天 咯 


A 
A 多 ? 
:如 | ， 你 去 吃饭 了 


你 自己 玩 的 挺 high 啊 


ms iy 


你 这 么 说 话 好 想 接 你 ! 


咱 俩 已 经 没什么 好 说 的 了 [拜拜 ] 


和 你 没 话说 了 , EF! 


bo 


过 年 了 也 不 来 个 红包 表示 一 下 


F 祝 你 新 年 拿 压 岁 钱 拿 到 手软 


BRER Üp 
BERE Üp 


F 祝 你 万 事 如 意 ! 家 庭 幸福 。 


BERR ip 
maumEeR ip 


F 鸡 年 新 愿望 : 你 好 我 好 大 家 都 好 


F 恭喜 发 财 , BUS! 


F 欢 欢 喜 喜 过 大 年 


O 抢 了 多 少 红包 呀 ? 


图 21-1 


事实 上 ， 即 使 是 祝福 语 ，20 多 轮 对 话 的 多 样 性 也 是 令 人 咋舌 的 。 
POAT A m, BRA), PORES EEA Ew, Ite 


征 ? 或 者 “也 视 你 生日 快乐 "这样 不 搭 边 的 回答 ， 并 且 在 三 四 轮 对 话 后 ， 
机 器 人 就 产生 重复 回答 了 。 


(3) 机 器 人 应 该 “个 性 表达 一 致 "。 它 的 年 龄 、 身 份 、 出 生地 等 基 
本 背景 信息 以 及 爱好 、 语 言 风 格 应 该 一 致 ， 能 让 人 把 它 想象 成 一 个 典 
型 的 人 。 例 如 ， 微 软 小 冰 关 于 性 别 的 回答 ， 在 多 轮 会 话 中 有 些 不 一 
致 ， 但 总 体 上 个 性 是 一 致 的 ， 如 图 21-2 所 示 。 


男生 于是 女生? 各 


F BEE? 你 不 会 性 别 歧视 吧 ~ 


你 是 男生 还 是 女生 ? jp 
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x 你 见 过 这 么 可 爱 的 男孩 子 嘛 1 
EP +4 


manemane ip 
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F 。。。 我 选择 狗 带 ! | | 
eo ee 


Raa 4 
F 问 这 种 问题 , 真 没 礼貌 


‘O KAR, SMa) 


F RNFEURI ITEFA G 


F 别 说 我 了 , 不 如 说 说 你 吧 


F 你 都 知道 了 还 问 ? 


图 21-2 


21.3 ”机 需 翻 译 的 评价 方法 


现在 机 天 翻译 方法 越 来 越 多 ， 那 么 如 何 评价 一 个 机 噩 翻译 方法 的 
好 坏 呢 ? 


最 初 是 用 人 工 评测 的 方法 ， 在 得 到 翻译 结果 后 ， 请 专家 来 为 每 个 
句子 的 翻译 结果 打分 ， 然 后 统计 平均 分 。 这 种 方法 存在 两 个 问题 ， 一 
是 由 两 批 专家 打分 ， 即 使 一 批 专家 给 两 个 翻译 结果 打分 ， 也 无 法 保证 
打分 尺度 一 致 ， 二 是 打分 周期 让 系统 迭代 的 周期 变 长 。 


下 面 我 们 残 来 介绍 两 种 目 动 评价 方法 。 
21.3.1 BLEU 

这 里 讲 的 BLEU (bilingual evaluation understudy) 方法 是 在 2002 年 
由 IBM 的 沃 和 森 研 究 中 心 提 出 的 。BLEU 是 Bilingual Evaluation Understudy 
的 英文 缩写 。 它 的 核心 思想 是 : 机 融 翻 译 语句 与 人 类 的 专业 翻译 语句 
越 接近 残 越 好 。 


这 个 上 自动 评价 方法 与 人 工 评价 高 度 相 关 。 我 们 把 正确 的 句子 叫 作 
参考 译文 (reference) ， 也 称 正 确 句 子 (golden sentence) ， 测 试 的 名 
子 叫 作 候选 译文 (candidate) ， 这 种 方法 适用 于 一 个 测试 语 料 中 具有 


多 个 参考 译文 的 情况 。 


我 们 比较 参考 译文 与 候选 译文 中 相同 的 片段 的 数量 ， 用 参考 译文 
中 连续 出 现 的 N 元 组 (N 个 单词 或 字 ) 与 候选 译文 中 出 现 的 N 元 组 进行 
比较 ， 也 称 为 n 单位 片段 (n-gram) 比较 ， 计 算 完 全 匹配 的 N 元 组 的 
个 数 与 参考 译文 中 NN 元 组 的 总 个 数 的 比例 ， 这 些 匹配 片段 与 它们 在 文 
字 中 存在 的 位 置 无 关 。 匹 配 片段 数 越 多 ， 则 竺 评价 的 候选 译文 的 质量 
越 好 。 因 此 ，BLEU 得 分 越 高 翻译 质量 越 好 。 


21.3.2 METEOR 


METEOR 是 为 一 个 用 来 评价 机 右 翻 详 输出 质量 好 坏 的 方法 。 与 
BLEU 不 同 ， 它 不 仅 要 求 候选 译文 在 整个 句子 上 ， 而 且 在 句子 的 分 段 级 
别 上 ， 也 要 与 参考 译文 的 更 接近 。 


我 们 来 看 维基 百科 上 的 一 个 例子 中 。METEOR 方 法 在 待 评价 字符 
串 和 参考 字符 串 之 间 创 建 一 个 平面 图 ， 如 图 21-3 所 示 。 


the cat sat on the mat the cat sat on the mat 


on the mat sat the cat on the mat sat the cat 


图 21-3 


在 竺 评价 翻译 中 的 每 个 一 元 组 必须 映射 到 参考 翻译 中 的 1 个 或 0 个 
一 元 组 ， 如 果 有 两 个 平面 图 的 映射 数量 相同 (如 图 21-3 所 示 ) ， 那 么 选 
择 映 射 交叉 数目 较 少 的 那个 。 也 就 是 说 ， 图 21-3 左 侧 的 会 被 选中 。 
METEOR 得 分 越 高 质量 越 好 。 图 21-4 所 示 为 维基 百科 上 面 的 比较 结 
果 o 


Examples [edit] 


Reference the cat sat on the mat 


Hypothesis on the mat sat the cat 


Score: 0.5000 = Fmean: 1.0000 * (1 - Penalty: 0.5000) 

Fmean: 1.0000 = 10 * Precision: 1.0000 * Recall: 1.0000 / (Recall: 1.0000 + 9 * Precision: 1.0000) 
Penalty: 0.5000 = 0.5 * (Fragmentation: 1.0000 “3) 

Fragmentation: 1.0000 = Chunks: 6.0000 / Matches: 6.0000 


Reference the cat sat on the mat 


Hypothesis the cat sat on the mat 


Score: 0.9977 = Fmean: 1.0000 * (1 - Penalty: 0.0023) 

Fmean: 1.0000 = 10 * Precision: 1.0000 * Recall: 1.0000 / (Recall: 1.0000 + 9 * Precision: 1.0000) 
Penalty: 0.0023 = 0.5 * (Fragmentation: 0.1667 “3) 

Fragmentation: 0.1667 = Chunks: 1.0000 / Matches: 6.0000 


Reference the cat sat on the mat 


Hypothesis the cat was sat on the mat 


Score: 0.9654 = Fmean: 0.9836 * (1 - Penalty: 0.0185) 

Fmean: 0.9836 = 10 * Precision: 0.8571 * Recall: 1.0000 / (Recall: 1.0000 + 9 * Precision: 0.8571) 
Penalty: 0.0185 = 0.5 * (Fragmentation: 0.3333 “3) 

Fragmentation: 0.3333 = Chunks: 2.0000 / Matches: 6.0000 


图 21-4 


21.4 常用 的 通用 评价 指标 


对 于 深度 学 习 的 分 类 程序 来 说 ， 常 用 的 评价 指标 有 准确 率 、 召 回 
率 、F 值 、ROC、AUC、AP 和 mAP 等 。 准 确 率 、 召 回 率 和 F 值 过 于 简 
单 ， 这 里 就 不 警 述 ， 下 面 主要 讲 ROC、AUC、AP 和 mAP。 


21.4.1 ROC 和 AUC 


ROC (Receiver Operating Characteristic， 受 试 者 工作 特征 曲线 ) 和 
AUC (Area Under roc Curve， 曲 线 下 面积 ) 是 评价 分 类 器 的 指标 。 图 
21-5 展 示 的 是 摘自 维基 百科 中 的 ROC 曲 线 示例 。 如 图 21-5 所 示 ，ROC 


曲线 的 横 坐 标 为 FPR (False positive rate) ， 纵 坐标 为 TPR (True 
positive rate) 。ROC 曲 线 越 接近 左上 角 ， 分 类 器 的 性 能 承 越 好 。 
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图 21-5 


AUC 是 ROC 曲 线 下 方 的 那 部 分 面积 的 大 小 。 通 常 ，ROC 曲 线 一 般 
都 处 于 y = x 这 条 直线 的 上 方 ， 因 此 AUC 的 值 介 于 0.5 和 1.0 之 间 ，AUC 


党 


的 值 越 大 表示 性 能 越 好 。 有 一 些 专门 的 AUC 计 算 工 具 ， 人 参见 
http://mark.goadrich. com/programs/AUC/ ° 


21.4.2 AP 和 mAP 


在 计算 机 视觉 中 ， 尤 其 在 分 类 问题 中 ，AP (average precision, F 
均 准确 性 ) 是 模型 分 类 能 力 的 重要 指标 。 如 果 单 纯 用 P (precision 
rate， 准 确 率 ) FUR (recall rate， 召 回 率 ) 来 评价 ， 组 成 的 PR 曲线 有 一 
个 趋势 就 是 ， 召 回 率 越 高 准确 率 越 低 。AP 指 这 个 曲线 下 的 面积 ， 等 于 
对 召回 率 做 积分 ， 而 mAP (mean average precision， 平 均 准 确 性 平均 ) 
也 是 为 了 解决 准确 率 、 召 回 率 、F 值 的 单 点 值 局 限 性 的 ， 它 对 所 有 类 别 
分 别 取 平均 ， 把 每 一 个 类 当 作 一 次 二 分 类 任务 。 目 前 的 图 像 分 类 论文 
基本 都 是 用 mAP 的 高 低 作为 分 类 好 坏 的 标准 。 


21.5 “小 结 


本 章 介 绍 了 机 器 学 习 的 评测 体系 。 包 括 “ 实 战 篇 "中 人 脸 识 别 的 性 
能 指标 、 聊 天 机 器 人 的 性 能 指标 ， 以 及 机 器 翻译 的 评价 方法 。 另 外 ， 
还 介绍 了 儿 个 常用 的 通用 评价 指标 ， 即 ROC、AUC、AP 和 mAP。 但 
是 ， 对 一 个 具体 的 行业 应 用 来 说 ， 性 能 指标 和 评价 方法 不 是 一 成 不 变 
的 ， 随 着 模型 准确 率 和 召回 率 的 提高 ， 对 模型 的 评价 维度 也 会 更 全 
面 ， 读 者 可 以 多 多 关注 相关 科 人 赋 成 采 。 


[1] ”这 上 段 内 容 参 考 http://sanwen.net/a/hkhptbo.html ， 发 表 在 《中 国人 
工 智能 学 会 通讯 》2016 年 第 6 卷 第 1 期 上 。 


[2] _ https://en. wikipedia.org/wiki/METEOR#Algorithm 


[3] 
https://en. wikipedia.org/wiki/Receiver_operating_characteristic#/media/File: 


Roccurves.png 


附录 A 公开 数据 集 
为 了 方便 读者 进行 更 多 实践 ， 本 附录 给 读者 介绍 一 些 可 用 的 公开 
数据 集 。 
A1 图 片 数据 集 


ImageNet 1 是 目前 世界 上 最 大 的 图 像 识 别 数据 集 ， 包 仿 14197122 
张 图 像 ， 由 斯 坦 福 大 学 视觉 实验 室 终 刁 教授 李 飞 飞 创立 。 每 年 的 
ImageNet 大 赛 是 国际 上 计算 机 视觉 的 顶级 赛事 。 


COCO P 是 微软 创立 的 用 于 分 割 和 加 字幕 标注 的 数据 集 。 其 主要 
特征 如 下 : 


。 目标 分 割 ; 

。 通过 上 下 文 进行 识别 ; 

。 每 个 图 像 包含 多 个 目标 对 象 ; 
超过 300000 个 图 像 ; 

。 超过 2000000 个 实例 ; 
80 种 对 象 

每 个 图 像 包含 5 个 字幕 ; 
包含 100000 个 人 的 关键 点 。 


CIFAR 3! (Canada Institude For Advanced Research) 是 由 加 拿 大 
先进 技术 研究 院 收 集 的 8 000 万 小 图 片 的 数据 集 。CIFAR 包 含 CIFAR-10 


和 CIFAR-100 两 个 数据 集 。Cifar-10 由 60 000 张 32x32 的 RGB 彩色 图 片 构 
成 ， 共 10 个 类 别 ，50 000 张 训练 ，10 000 张 测试 (交叉 验证 ) 
CIFAR-100 由 60 000 张 图 像 构成 ， 包 含 100 个 类 别 ， 每 个 类 别 600 张 图 
像 ， 其 中 500 张 用 于 训练 ，100 张 用 于 测试 。 其 中 这 100 个 类 别 又 组 成 了 
20 个 大 的 类 别 ， 每 个 图 像 包 含 小 类 别 和 大 类 别 两 个 标记 。 


A.2 人 脸 数 据 集 


AFLW |^! (Annotated Facial Landmarks in the Wild) 提供 从 Flickr 
收集 的 带 标 注 的 面部 图 像 的 大 规模 集合 ， 包 括 了 各 种 姿态 、 表 情 、 光 
照 、 种 族 、 性 别 、 年 龄 等 因素 影响 的 图 片 ， 大 约 包 括 25 000 万 手工 标 
注 的 人 脸 图 片 ， 每 个 人 脸 被 标注 了 21 个 特征 点 ， 图 像 大 多 数 是 彩色 
的 ，59% 为 女性 ，41% 为 男性 。 该 数据 集 非常 适合 用 于 人 脸 识 别 、 人 
脸 检 测 、 人 脸 对 齐 等 方面 的 研究 。 


Labeled Faces in the Wild Home ÀP! (LFW) 数据 集 是 由 美国 马 萨 
诸 塞 大 学 阿 姆 斯 特 分 校 计算 机 视觉 实验 室 整理 而 成 的 。 它 包含 13 233 
张 图 片 ， 共 5 749 个 人 ， 其 中 4 096 个 人 只 有 一 张 图 片 ，1 680 个 人 的 图 
请 多 于 一 张 ， 主 要 用 于 研究 非 受 限 情形 下 的 人 脸 识别 问题 ， 因 为 人 脸 
的 外 形 很 不 稳定 ， 会 受到 面部 表情 、 观 察 角 度 、 光 照 条 件 、 室 内 罕 
Sh > a) 口罩、 眼睛 、 帽 子 等 ) 、 年 龄 等 方面 的 影响 。 现 在 已 经 
成 为 学 术 界 评价 识别 性 能 的 标准 (benchmark) 


GENKI [6 数据 集 是 由 加 利 福 尼 亚 大 学 收集 的 。 该 数据 集 包含 
GENKI-R2009a、GENKI-4K 和 GENKI-SZSL 三 个 部 分 ， 其 中 GENKI- 
R2009a 包 含 11 159 个 图 片 ，GENKI-4K 包 含 4 000 个 图 像 ， 分 


为 “ 笑 ” 和 “不 笑 ? 两 类 ， 每 个 图 片 的 人 脸 的 姿势 、 头 的 转动 都 标注 了 角 
度 ， 专 门 用 于 做 笑脸 识别 。GENKI-SZSL 包 含 3 500 个 图 像 ， 这 些 图 片 
包括 广泛 的 背景 、 光 照 条 件 、 地 理 位 置 、 个 人 身份 和 种 族 等 。 


VGG Face [7] 数据 集 包 含 了 2 622 个 不 同 的 人 ， 每 个 人 包含 1 000 张 
图 片 ， 是 一 个 训练 人 脸 识别 的 大 的 数据 集 。 


大 规模 名 人 人 脸 标 注 数据 集 CelebA [8] (Large-scale CelebFaces 
Attributes) 包含 10 177 个 名 人 ，202 599 张 名 人 图 像 ， 每 张 图 像 都 有 40 
个 属性 标注 。 


A.3 ”视频 数据 集 


YouTube-8M 中 数据 集 是 一 个 不 错 的 视频 数据 集 ， 包 含 了 800 万 个 
YouTube 视 频 的 URL， 代 表 50 万 小 时 长 度 的 视频 ， 并 市 有 视频 标注 。 


A.4 问答 数据 集 


MS MARCO [°] (Microsoft MAchine Reading Comprehension) 是 
微软 发 布 的 一 个 包含 10 万 个 问题 和 答案 的 数据 集 ， 研 究 者 可 以 使 用 这 
个 数据 集 来 创造 能 够 像 人 类 一 样 阅 读 和 回答 问题 的 系统 。 这 个 数据 集 
是 基于 匿名 的 真实 数据 构建 的 。 


康 奈 尔 大 学 电影 对 日 数据 集 UO 有 超过 600 部 好 莱 坞 电影 的 对 白 。 


AS 目 动 笃 驶 数据 集 


法 国 国 家 信息 与 自动 化 研究 所 行人 数据 集 2) (INRIA Person 
Dataset) ， 这 个 数据 集 是 作为 图 像 和 视频 中 直立 人 检测 的 研究 工作 的 
一 部 分 收集 的 ， 里 面 的 图 片 分 为 两 种 格式 ， 一 种 是 具有 对 应 注释 文件 
的 原始 图 像 ， 另 一 种 是 具有 原始 负 像 的 经 过 正规 化 处 理 后 的 64x128 像 
素 正 像 。 图 片 分 为 只 有 车 、 只 有 人 、 有 车 有 人 和 无 车 无 人 4 个 类 别 。 


KITTI 03 (Karlsruhe Institute of Technology and Toyota 
Technological Institute) 是 一 个 车 辆 数据 集 ， 包 含 7 481 个 训练 图 片 和 7 
518 个 测试 图 片 。 该 数据 集中 标注 了 竺 辆 的 类 型 、 是 否 和 截断 、 遮 挡 情 
况 、 角 度 值 、 二 维和 三 维 框 、 位 置 、 旋 转角 度 等 重要 的 信息 。 


A.6 年龄、 性 别 数据 集 


Adience 数 据 集 4] 来 源 为 Flickr 相 册 ， 由 用 户 使 用 iPhone5 或 者 其 
他 智能 手机 设备 拍摄 ， 图 片 包 含 2 284 个 类 别 和 26 580 张 图 片 ， 并 且 保 
留 了 光照 、 姿 势 、 噪 声 的 影响 ， 是 在 做 性 别 、 年 龄 估计 和 人 脸 检测 中 
运用 算法 时 进行 基准 测试 的 一 个 数据 集 。 


除 以 上 这 些 数 据 集 外 ， 还 有 非常 多 的 公开 数据 集 ， 读 者 可 以 目 己 
用 搜索 引擎 去 研究 和 探索 。 
[1] http://www.image-net.org/ 
[2] http://mscoco.org/ 


[3] https://www.cifar.ca/ 


[4]  http://Irs.icg.tugraz.at/research/aflw/ 
[5]  http://vis-www.cs.umass.edu/lfw/ 
[6] http://mplab.ucsd.edu 


[7]  http://www.robots.ox.ac.uk/~vgg/data/vgg_face/ 


[8]  http://mmlab.ie.cuhk.edu.hk/projects/CelebA html 


[9]  https://research.google.con 


1V/youtube8m/ 
[10] http://www.msmarco.org 


[11] https://www.cs.comell.edu/~cristian/Cornell_Movie- 


Dialogs_Corpus.html 
[12]  http://pascal.inrialpes.fr/data/human/ 
[13]  http://www.cvlibs.net/datasets/kitti/ 


[14]  http://www.openu.ac.il/home/hassner/Adience/data.html 


附录 B 项 目 管理 经 验 小 谈 


终于 到 本 书 的 最 后 部 分 了， 相信 通过 前 面 的 学 习 你 已 经 对 
TensorFlow 的 基础 知识 和 实战 了 解 得 很 全 面 了 ， 那 整 快 快 动手 结合 
己 的 业务 实现 一 个 Demo 吧 。 作 为 一 个 技术 人 员 ， 你 也 不 可 避免 地 会 过 
到 职场 上 的 管理 和 流程 问题 ， 而 且 随 着 工作 年 限 的 提高 ， 你 可 能 早晚 
都 要 做 一 个 纯 管 理 痢 或 者 扩 术 管理 者 ， 或 者 是 一 个 被 别人 经 常 请 教 技 
术 方 案 的 人 。 本 章 我 就 说 一 些 在 工作 中 的 项 目 管理 经 验 。 


B.1 管理 的 激进 与 保守 问题 


技术 管理 人 员 在 设计 技术 架构 及 人 员 管 理 的 时 候 ， 往 往 会 有 两 种 
风格 激进 派 和 保守 派 。 下 面 我 来 说 说 这 两 种 风格 的 特点 ， 以 及 作 
为 技术 管理 人 员 ， 如 何 针 对 具体 的 项 目 ， 用 不 同 的 风格 来 扬长 避 短 。 
B.1.1 激进 派 


这 种 风格 表现 在 : 项 目 上 追求 快速 完成 ， 不 太 注 重 项 目 持久 性 。 
这 种 风格 的 优点 是 ， 一 个 新 总 于 往往 能 迅速 上 线 ， 但 况 端 更 多 。 


这 样 的 管理 者 开头 和 分 配 任务 的 方式 往往 是 一 样 的 : 


“小 A， 小 B， 小 C， 快 快 快 ， 在 这 儿 开 个 会 。 我 们 要 做 一 个 xxx， 
就 是 实现 个 xxx， 小 A， 你 做 A 部 分 ， 小 B 你 做 B 部 分 ， 小 C 你 做 C 部 


分 。 我 们 这 个 项 目 ，2 周 ， 开 发 完 ， 交 给 测试 。 测 试 一 两 天 束 应 该 能 测 
TAARE” 


然后 ， 小 A、 小 B、 小 C 回 到 工 位 ， 开 始 火 急 火 烷 地 开发 。 不 ， 开 
始 火 急 火 粽 地 研究 需求 ， 设 计 系 统 方案 ， 最 后 开始 编码 。 


然后 ， 真 正 到 2 周 了 ， 其 实 也 开发 完了 ， 交 付 给 测试 后 ， 会 出 现 很 
多 问题 ， 然 后 他 们 分 别 拼命 改 。 终 于 在 最 后 期 限 一 一 10 月 发 上 线 了 ， 
可 是 ， 给 用 户 一 用 ， 发 现 好 多 问题 ， 紧 急 修复 ， 有 紧急， 紧急， 身后 一 
HT ° 


BIFFE, re CEH EE? 


首先 ， 因 为 留 给 基层 开发 人 员 的 时 间 很 得， 所 以 开发 人 员 在 开发 
时 无 法 深入 地 对 系统 架构 有 整体 的 思考 ,并且 因 为 时 间 紧 迫 ， 开 发 人 
员 都 是 “ 吃 技术 老 本 ”来 完成 这 个 项 目 ， 没 有 从 项 目 中 学 到 新 东西 ， 世 
没有 获得 太 大 的 成 长 。 比 如 ， 之 所 以 让 小 A 负责 A， 小 B 人 负责 B， 小 C 负 
责 C， 是 因为 这 部 分 是 他 们 各 自 的 擅长 领域 ， 开 发 人 员 在 技术 上 做 的 
是 “重复 的 机 械 性 的 ?工作 。 


其 次 ， 上 线 后 会 有 各 种 诡异 问题 。 这 是 因为 ， 开 发 时 对 所 有 的 远 
辑 没 有 想 全 ， 项 目 周期 紧张 ， 测试 人 员 也 是 在 测试 当天 前 后 才 了 解 到 
这 个 项 目 ， 对 项 目的 整体 功能 把 握 不 透彻 ， 丈 完全 依赖 开发 人 员 的 摘 
述 进 行 测 试 。 一 些 异 常 状 态 以 及 跟 之 前 系统 可 能 有 的 交互 的 影响 未 考 
虚 到 ， 导 致 很 多 不 易 察 觉 的 错误 上 线 后 才 发 现 。 这 时 ， 留 给 开发 人 员 
的 活 儿 融 是 在 线 上 定位 和 修改 bug。 因 为 这 种 问题 往往 是 没有 很 明显 复 


现 条 件 的 ， 所 以 定位 问题 的 难度 很 大 。 这 时 开发 人 员 束 要 重新 梳理 一 
过 目 己 的 开发 逻辑 ， 从 中 发 现 可 能 的 问题 。 


再 次 ， 由 于 时 间 紧 张 ， 开 发 人 员 往 往 不 写 * 设 计 文 档 ”， 这 对 后 期 
接手 人 员 的 工作 市 来 很 大 困难 。 万 一 开发 人 员 变 动 或 者 离职 ， 接 手 人 
员 有 了 时 就 得 重头 “ 噶 ” 代 码 ， 或 者 目 己 男 写 一 套 代码 维护 。 


我 称 这 种 项 目 管理 方式 叫 作 “ 走 2 步 ， 退 1 步 半 ”。 因 此 ， 开 发 的 时 
候 ， 好 像 很 迅速 ， 一 个 系统 可 能 2 周 左右 束 开 发 完成 ， 然 后 上 线 ， 管 理 
人 员 和 一 线 开 发 人 员 都 背 大 欢喜 ， 发 邮件 抄 送 全 组 祝 禹 。 可 征 ， 后 续 
发 现 ， 问 题 维 护 成 本 也 很 高 ， 大 概 也 需要 1 周 半 的 时 间 去 维护 系统 的 遗 
留 癌 题 ， 这 些 遗 留 问题 被 测试 人 员 或 者 用 户 发 现 后 ， 往 往 也 需要 一 定 
的 沟通 成 本 来 描述 和 定位 。 最 重要 的 是 ， 问 题 发 生 在 线 上 后 ， 影 响 了 
公司 的 品牌 和 声誉 。 


这 种 开发 模式 对 "“ 束 手工 程 师 来 说 可 能 成 长 不 大 ， 而 对 “ 生 手 ” 工 
程 师 来 说 ， 这 种 模式 会 倒 远 他 在 某 个 时 间 点 完成 一 项 任务 ， 在 技术 应 
用 上 学 习 和 成 长 是 很 快 的 。 但 即使 < 熟 手 ” 也 会 出 现 上 述 问 题 ， 是 因为 
技术 本 领 的 熟练 ， 不 足以 应 对 开发 这 个 系统 时 需要 的 团队 配合 以 及 孝 
虑 系统 上 下 游 的 关系 的 问题 ， 因 为 你 做 的 很 多 设计 ， 可 能 和 你 搭档 的 
工程 师 并 不 知道 ， 或 者 在 整个 系统 中 并 不 必要 。 因 此 ， 有 的 时 候 你 不 
能 走 得 太 快 ， 人 否则 会 遗失 很 多 东西 ， 到 时 候 还 得 补 回来 。 


B.1.2 ”保守 派 


保守 派 和 激进 派 的 做 法 几乎 完全 相反 。 下 面 我 束 举 个 例子 来 摘 述 
保守 派 项 目 管理 的 开发 流程 。 例 如 ， 产 品 经 理想 给 产品 新 加 一 个 功 


能 ， 他 可 能 面临 如 下 步 又 。 
(1) 直接 找到 对 应 的 技术 人 员 去 沟通 。 


(2) 技术 人 员 同 意 添加 ， 并 有 能 够 解决 问题 的 技术 方案 。 但 是 ， 
不 要 以 为 技术 人 员 就 可 以 直接 干 活 写 代码 了 ， 因 为 拉 术 人 员 的 上 级 还 
不 知道 这 件 事情 ， 所 以 这 个 技术 人 员 还 没有 相应 的 时 间 资 源 ( 即 排 
期 ) 去 做 。 因 此 ， 需 要 再 向 技术 主管 确认 这 个 功能 是 否 要 添加 ， 以 及 
主管 安排 这 个 技术 人 员 的 工作 排 期 。 随 后 ， 需 要 产品 经 理发 出 邮件 ， 
抄 送 对 应 的 技术 人 员 和 双方 主管 ， 确 认 沟 通 内 容 ， 这 样 ， 沟 通 圆满 完 
Bis 


(3) 若 技术 人 员 认 为 这 个 功能 没有 必要 ， 或 者 添加 这 个 功能 的 技 
术 复 洒 度 很 高 。 他 们 就 需要 上 报到 双方 经 理 处 进行 协商 ， 而 协商 的 结 
果 则 要 视 问 题 的 复杂 度 及 各 自 的 KPI 来 定 。 有 可 能 问题 太 复杂 ， 这 个 
功能 融和 暂时 被 搁置 了 ， 也 有 可 能 产品 和 技术 虽然 都 负责 一 个 项 目 ， 但 
征 两 边 的 KPI 导 癌 可 能 不 一 致 ， 这 也 可 能 会 导致 新 功能 被 搁置 。 


而 到 了 真正 开始 项 目 开 发 的 时 候 ， 保 守 派 一 般 会 有 1~2 个 工程 师 
参与 ， 详 细 写 出 “设计 文档 ”， 和 项 目 经 理 一 起 开会 ， 对 设计 文档 的 实 
现 点 逐个 讨论 ， 逐 个 达成 一 致 ， 然 后 确保 在 考虑 上 没有 芯 忽 和 遗漏 ， 
才 开始 写 代 码 。 


B.1.3 ”保守 派 和 激进 派 的 区 别 


保守 派 和 激进 派 最 大 的 区 别 在 于 ， 保 守 派 在 向 前 推进 项 目的 每 一 
步 ， 都 倾向 以 "邮件 ”的 方式 传达 给 合作 方 ， 包 括 每 一 次 沟通 的 内 容 及 
沟通 的 结论 ， 并 且 倾向 于 在 开发 前 就 把 完整 的 设计 方案 全 部 整理 好 ， 


细 化 到 任何 一 个 步骤 ， 并 且 让 参与 的 工程 师 都 知晓 。 而 激进 派 则 不 

同 ， 他 比较 倾 问 于 口头 和 对 方 讨论 和 沟通 ， 并 立刻 投入 功能 实现 中 ， 

在 最 后 上 线 时 发 邮件 庆 痪 ， 并 且 倾 向 于 每 个 人 独立 负责 目 己 的 那 一 部 
分 ， 需 要 部 分 之 间 衔 接 时 ， 才 去 两 人 私下 讨论 ， 因 为 不 正式 ， 所 以 稼 
钊 也 考虑 不 到 对 整个 系统 或 者 其 他 工程 师 手 头 工 作 的 影响 。 


这 两 种 管理 方式 我 们 在 同一 家 公司 的 不 同 项 目 管 理 者 身上 经 常 能 
看 到 。 但 本 质 上 ， 这 两 种 方式 都 一 定 程 度 上 损失 了 公司 效率 。 其 实 ， 
稍微 理想 一 些 的 方式 应 该 是 下 面 这 样 的 。 


技术 经 理 在 平时 的 工作 中 ， 束 对 目 己 负责 的 产品 有 深刻 的 理解 ， 
能 够 主动 提出 需要 改进 的 功能 ， 并 且 对 系统 架构 有 深刻 的 了 解 ， 能 够 
知道 自己 目前 维护 的 系统 的 优势 和 不 足 在 哪里 ， 平 时 就 督促 一 线 开发 
人 员 做 好 系统 优化 。 在 面 对 新 需求 时 ， 能 从 产品 角度 给 出 新 需求 的 建 
议 ， 能 从 技术 角度 给 出 技术 选 型 和 实现 方案 ， 并 能 拉 上 测试 人 员 及 早 
接 入 了 解 项 目 。 这 样 ， 就 能 做 到 对 这 个 项 目 有 全 局 的 把 控 ， 对 开发 和 
和 过 束 有 合理 的 排 期 ， 选 择 适 当 的 团队 成 员 进 行 开发 ， 并 且 上 线 之 
后 “ 坑 ?” 也 很 少 。 同 时 ， 能 够 分 辨 出 哪些 项 目 是 可 以 很 快 完成 的 ， 哪 些 
项 目 是 需要 一 起 讨论 设计 方案 的 ， 做 项 目的 步骤 中 出 现 问题 ， 及 时 与 
开发 人 员 沟 通 ， 而 不 是 总 看 着 开 发 人 员 ， 让 他 们 目 己 沟通 解决 。 


这 束 对 技术 管理 人 员 的 要 求 很 高 ， 需 要 技术 管理 人 员 不 断 地 钻研 
业务 和 团队 的 技术 。“ 激 进 型 "和 “保守 型 ”的 管理 风格 相互 融合 ， 团 队 
的 领导 者 应 该 兼 具 这 两 种 风格 ， 这 对 技术 方案 的 选择 和 规划 开发 计划 
能 够 提供 很 好 的 合理 保证 。 因 此 ， 实 际 上 ， 技 术 管 理 者 的 门槛 应 该 是 
很 高 的 ， 他 除了 技术 过 硬 外 ， 还 需要 足够 了 解 业 务 本 质 ， 足 够 了 解 手 


头 的 技术 架构 的 重点 和 难点 ， 知 道 将 来 的 部 嗜 方向 ， 掌 握 每 一 个 技术 
人 员 的 技术 本 领 以 及 期 望 的 发 展 方 同 。 


男 外 ， 谈 谈 大 公司 和 创业 公司 的 区 别 ， 他 们 最 大 的 区 别 就 在 于 沟 
通 的 成 本 ， 以 及 由 此 决定 的 员工 工作 时 的 心态 和 状态 。 


对 于 BAT 之 类 的 大 公司 ， 犯 错误 的 成 本 是 很 高 的 。 因 此 ， 在 开发 
过 程 中 ， 沟 通 的 成 本 非常 高 。 大 公司 的 流程 管理 相对 比较 规范 和 严 
格 ， 有 些 是 以 KPI 为 导 问 的 ， 团 队 里 的 技术 、 Pid Sea ST TAY 
负责 人 ， 他 们 都 有 自己 独立 的 KPI， 即 使 这 些 不 同 角 色 的 人 都 是 负责 
同一 个 项 目 也 是 如 此 。 因 此 ， 在 做 项 目 时 ， 一 个 很 小 的 改动 ， 或 者 一 
次 很 小 的 沟通 ， 甚 至 古 一 次 很 平 沼 的 沟通 的 结论 ， 大 都 需要 发 出 邮件 
让 双方 的 领导 知情 ， 很 多 效率 会 损失 在 这 里 。 因 此 ， 这 种 管理 风格 多 
是 “保守 ”的 。 


而 创业 公司 一 般 是 ， 想 到 一 个 好 点 子 束 立 即 安排 去 实现 ， 或 者 过 
到 竟 品 上 线 了 一 个 新 功能 也 立刻 实现 相应 的 功能 。 因 此 ， 开 发 周期 相 
对 都 很 快 ， 管 理 方式 也 略微 “激进 ” 些 。 


管理 方式 的 不 同事 关公 司 ， 也 事 关 管理 着， 也 有 一 些 公司 在 这 个 
层面 做 得 很 好 ， 他 们 的 管理 者 在 决策 上 比较 有 经 验 ， 既 不 盲目 追 调 ， 
也 不 大 跨 步 冒进 ， 他 们 的 技术 管理 人 员 承 担 了 很 大 的 决策 压力 ， 因 此 
非常 有 胆识 。 


有 些 年 轻 人 以 在 大 公司 工作 为 骄 做 ， 也 有 些 职场 新 手 浅 莫 和 褒 爷 
大 公司 。 这 里 ， 我 借用 乔布斯 说 的 一 段 话 来 与 读者 共勉 : “公司 规模 扩 
大 之 后 ， 殊 会 变 得 因循守旧 ， 员 工 们 觉得 只 要 遵守 流程 ， 束 能 奇迹 般 


地 继续 成 功 ， 于 是 开始 推行 闫 格 的 流程 制度 ， 很 快 员工 束 把 苯 守 流程 
和 纪律 当 作 工作 本 吴 。” 因 此 ， 无 论 在 哪里 ， 我 们 都 应 该 实现 的 是 在 工 
作 目 标本 号 上 的 突破 ， 而 不 是 拘泥 于 流程 本 喘 。 


B.2 公司 效率 损失 及 规避 


很 多 情况 下 ， 公 司 效 率 往 往 损 失 在 细微 末世 的 小 事 上 。 比 如 ， 某 
个 技术 人 员 的 代码 没有 通过 运行 束 提 交 了 ， 不 慎 被 发 布 到 线 上 ， 然 后 
为 这 件 事 需要 耽误 好 几 天 的 时 间 来 修复 和 后 续 案 例 分 析 ， 再 如 ， 同 事 
之 间 对 同一 个 文件 的 代码 进行 修改 后 ， 合 并 后 没有 正确 解决 冲突 。 这 
种 错误 虽然 很 小 ， 但 是 也 极 大 地 影响 了 团队 的 工作 效率 ， 往 往 要 牵扯 
到 好 几 个 人 去 处 理 。 这 种 错误 往往 发 生 在 比较 “激进 ”的 团队 中 ， 这 
BY, 一些 开 发 流程 对 出 现 这 些 错误 厌 有 了 规避 的 作用 。 


(1) 代码 需要 经 过 代码 评审 (code review，CR) 。 代 码 评 审 的 
重要 性 不 言 自 明 ， 对 于 被 评审 者 ， 他 可 以 学 到 很 多 现成 的 编码 经 验 ; 
而 对 于 评审 人 员 ， 他 可 以 看 看 新 手 有 哪些 新 的 设计 思路 ， 给 目 己 以 局 
发 ， 并 且 能 知道 系统 中 常 犯 的 错误 和 问题 ， 对 高 屋 建 令 地 理解 系统 非 
常 重 要 。 但 是 ， 现 在 代码 评审 往往 被 很 多 公司 忽视 。 它 还 是 一 道 心里 
防线 ， 能 够 防止 未 运行 通过 的 代码 被 提交 。 


(2) 即使 是 简单 的 一 次 代码 上 线 ， 也 需要 测试 人 员 和 运 维 人 员 去 
验证 。 很 多 情况 下 ， 开 发 人 员 认 为 修改 量 很 小 ， 影 啊 范 围 有 限 ， 因 此 
直接 上 线 了 ， 这 往往 会 导致 问题 出 现 ， 在 我 周围 也 听 说 过 很 多 例 。 因 
此 ， 无 论 修改 范围 大 小 ， 都 需要 经 过 验证 的 流程 。 


(3) 慎重 使 用 root 权 限 。 运 维 人 员 往 往 有 很 多 机 器 的 最 高 权限 ， 
(ARR ewes, AR. Aly > SUR, AURA REEVE RU 
于 这 种 情况 下 的 “rm -rf”。 因此， 一 些 解 决 经 验 束 是 ， HBT EB A 
己 实现 rm 命令 的 源 代 码 ， 进 入 重要 目录 后 ， 执 行 这 个 操作 时 ， 需 要 输 
入 密码 ， 这 个 密码 可 以 是 “当天 的 0 点 时 间 戳 加 上 当天 的 星期 序号 的 
md5 值 等。 严格 执行 根据 运 维 级 别 给 予 操作 权限 ， 对 应 重要 目录 的 权 
限 ， 即 使 很 高 级 别 的 人 ， 也 不 能 随意 切换 到 root 用 户 ， 执 行 rm -rff 
作 。 


B.3 小 结 


本 章 主要 总 结 了 我 在 学 习 项 目 管理 及 项 目 开发 中 的 一 些 经 验 ， 根 
据 我 在 创业 公司 和 大 公司 的 一 些 观 察 ， 对 公司 整体 效率 的 提升 和 快速 
稳步 发 展 提出 了 一 些 建 议 ， 也 从 技术 角度 对 减少 公司 效率 损失 提供 了 
一 些 建 议 ， 供 有 志 于 成 为 技术 管理 人 员 的 读者 参考 借鉴 。 


欢迎 来 到 异步 社区 ! 


异步 社区 的 来 历 


异步 社区 (www.epubit.com.cn ) 是 人 民 邮 电 出 版 社 旗下 IT 专业 图 书 旗 
舰 社区 ， 于 2015 年 8 月 上 线 运营 。 


异步 社区 依托 于 人 民 邮 电 出 版 社 20 余 年 的 IT 专业 优质 出 版 资源 和 
编辑 策划 团队 ， 打 造 传 统 出 版 与 电子 出 版 和 上 自 出 版 结合 、 纸 质 书 与 电 
子 书 结合 、 传 统 印 刷 与 POD 按 需 印 刷 结合 的 出 版 平台 ， 提 供 最 新 技术 
资讯 ， 为 作者 和 读者 打造 交流 互动 的 平台 。 
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Python 机 各 学 习 一 一 预见 叶 斯 方法 ; SERR 机 器 学 习 项 自 开发 实战 由 时 斯 思维 ; Sete 
得 分 析 核 心得 法 与 贝 时 斯 准 断 的 Python 学 习 法 


社区 里 都 有 什么 ? 
购买 图 书 


我 们 出 版 的 图 书 涵盖 主流 芽 技术 ， 在 编程 语言 、 Web 技 术 、 数 据 科 
学 等 领域 有 众多 经 典 畅 销 图 书 。 社 区 现 已 上 线 图 书 1000 余 种 ， 电 子 书 
400 多 种 ， 部 分 新 书 实现 纸 书 、 电 子 书 同步 出 版 。 我 们 还 会 定期 发 布 新 
书 书 讯 。 


下 载 资源 


社区 内 提供 随 书 附 赠 的 资源 ， 如 书 中 的 案例 或 程序 源 代码 。 


男 外 ， 社 区 还 提供 了 大 量 的 免费 电子 书 ， 只 要 注册 成 为 社区 用 户 
束 可 以 免费 下 载 。 


与 作 译 者 互动 


很 多 图 书 的 作 译 者 已 经 入 驻 社区 ， 您 可 以 关注 他 们 ， 咨 询 技术 问 
题 ; 可 以 阅读 不 断 更 新 的 技术 文章 ， 听 作 译 者 和 编辑 畅 聊 好 书 背 后 有 
趣 的 故事 ;还 可 以 参与 社区 的 作者 访谈 栏目 ， 回 您 天 广 的 作者 提出 采 
访 题目 。 


灵活 优惠 的 购书 


您 可 以 方便 地 下 单 购买 纸 质 图 书 或 电子 图 书 ， 纸 质 图 书 直接 从 人 
民 邮 电 出 版 社 书库 发 货 ， 电 子 书 提供 多 种 阅读 格式 。 


对 于 重 磅 新 书 ， 社 区 提供 预 售 和 新 书 首发 服务 ， 用 户 可 以 第 一 时 
间 买 到 心仪 的 新 书 。 


用 户 帐户 中 的 积分 可 以 用 于 购书 优惠 。100 积 分 =1 元 ， 购 买 图 书 
时 ,在 :EE 里 项 入 可 使 用 的 积分 数值 ， 即 可 扣 减 相应 金额 。 


| 人 | 


购买 本 电子 书 的 读者 专 享 异步 社区 优惠 券 。 使 用 方法 ， 注 册 成 为 社区 用 户 ， 在 下 单 购 
书 时 输入 "57AWG ”， 然 后 点 击 “ 使 用 优惠 码 ”， 即 可 享受 电子 书 8 折 优惠 (本 优惠 券 只 可 使 用 
一 次 ) 。 2 


纸 电 图 书 组 合 购买 


社区 独家 提供 纸 质 图 书 和 电子 书 组 合 购买 方式 ， 价 格 优惠 ， 一 次 


购买 ， 多 种 阅读 选择 。 
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社区 里 还 可 以 做 什么 ? 


提交 勘误 
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您 可 以 在 图 书页 面 下 方 提 区 勘误 ， 每 条 勘误 被 确认 后 可 以 获得 100 


积分 。 热 心 勤 误 的 读者 还 有 机 会 参 


写作 


与 书稿 的 审 校 和 翻译 工作 。 


性 区 提供 基于 Markdown 的 写作 环境 ， 喜 欢 写 作 的 您 可 以 在 此 一 试 
身手 ， 在 社区 里 分 享 您 的 技术 心得 和 读书 体会 ， 更 可 以 体验 目 出 版 的 
乐趣 ， 轻 松 实现 出 版 的 梦想 。 


如 有 果 成 为 社区 认证 作 译 者 ， 还 可 以 享受 异步 社区 提供 的 作者 专 享 
特色 服务 。 


会 议 活 动 早 知道 
您 可 以 掌握 代 圈 的 技术 会 议 资 讯 ， 更 有 机 会 免费 获 赠 大 会 门票 。 


加 入 异步 


扫描 任意 二 维 码 都 能 找到 我 们 : 


微 信服 务 号 


方 微 博 


Er 
=! 


QQ 群 : 436746675 


社区 网 址 : www.epubit.com.cn 


异步 社区 


官方 微 信 : 


官方 微 博 : @ 人 邮 异 步 社 区 ，@ 人 民 邮 电 出 版 社 -信息 技术 分 社 


投稿 & 咨 询 : contact@epubit.com.cn 


